医学论文统计学方法

3个回答默认排序

默认排序

按时间排序

注册不太麻烦

已采纳

医学论文统计学方法应用的错误解析论文

摘要：统计学方法应用正确与否直接关系到医学科研结果的可信度和有效性，在研究设计时的错误应用会否决整个科研研究方案，基于错误统计学方法上产生的结果会浪费科研人员的时间和精力。编审人员应该高度重视医学论文的统计学方法应用，提高单篇文献的质量和学术水平。

关键词：统计学方法；医学论文；解析

一、引言

医学由于其研究的复杂性和系统性，常需要应用严谨的统计学方法，由于有些作者对医学科研的统计学理论和方法的应用缺乏深刻了解，在医学论文中错误应用统计学方法的现象时有发生。统计学方法应用的错误直接导致统计结果的错误。例如统计学图表、统计学指标、统计学的显著性检验等。因此，正确应用统计学方法，并将所获得的结果进行正确的描述有助于单篇论著的质量提高，现将医学论文中统计学方法应用及其常见结果的错误解析如下。

二、医学论文统计学方法应用概况

医学论文的摘要是全文的高度浓缩[1]，主要由目的、方法、结果、结论组成。一般要求要写明主要的统计学方法、统计学研究结果和P值。一篇医学论文的质量往往通过摘要的统计学结果部分就能判断。统计学方法的选择和结果的表达直接影响单篇论著的科研水平。

(一)材料与方法部分

正文中，材料与方法部分必须对统计学方法的选择、应用、统计学显著性的设定进行明确说明。通过对统计学方法的描述，读者应该清楚论著的统计学设计思路。材料部分要清楚说明样本或病例的来源、入组和排除标准、样本量大小、研究组和对照组的设定条件、回顾性或者前瞻性研究、调查或者实验性研究、其他与研究有关的一般资料情况，其目的是表明统计学方法应用的合理性和可靠性，他人作相关研究时具备可重复性。方法部分应详细叙述研究组和对照组的不同处理过程、观察的具体指标、采用的测量技术，要具备可比较性和科学性，

方法部分还要专门介绍统计分析方法及其采用的统计软件。不同的数据处理要采用不同的方法，必须清楚的说明计数或者计量资料、两组或者多组比较、不同处理因素的关联性研究。常用的有两组间计量资料的t检验，多组间计量资料的F检验，计数资料的卡方检验，不同因素之间的相关分析和回归分析。有些遗传学研究方法还有专门的统计学方法，要在这里简要说明并给出参考文献，还要简单叙述统计方法的原理。统计学软件要清楚的说明软件的名称和版本号，如基于家系资料研究的FBAT1.7.3版本。

(二)论文结果部分

论文结果部分要显示应用统计学方法得到的统计量[2]，所采用的统计学指标较多时，往往分开叙述。分组比较多时还要借助统计图表来准确表达统计结果。对于数据的精确度，除了与测量仪器的精密程度有关外，还与样本本身的均数有关，所得值的单位一般采用紧邻均数除以三为原则。均数和标准差的有效位数要和原始数据一致。标准差或标准误差有时需要增加一个位数，百分比一般保留一个小数。在统计软件中，分析结果往往精确度比较高，一般要采用四舍五入的方法使其靠近实验的实际情况，否则还会降低论文的可信度和可读性。

结果部分的统计表采用统一的“三线”表，表题中要注明均数、标准差等数据类型。表格中的数值要按照行和列进行顺序放置，要求整齐美观，不能出现错行现象。要明确标注观察的例数，得到的检验统计量。统计图可以直观的表达研究结果，如回归和相关分析的散点图可以显示个体值的散布情况。曲线图表达个体均值在不同组别随时间变化的情况或者不同条件下重复测量的结果。误差条图由均数加减标准误绘出，描述的是67%的置信区间，不是95%，提倡在误差条图采用95%的置信区间。

关于统计量，一般采用均数与标准差两个指标，均数不宜单独使用。使用均数的时候要明确变异指标标准差或者精确性指标标准误。关于百分比，分母的确定必须要符合逻辑，过小的样本会导致分母过小而出现百分比过大的情况。百分率的比较要写清两者中不同的变化，可以采用卡方检验。

1.假设检验的结果中，常见只写P值的情况，有时候会误导读者，也会隐藏计算失误的情况，因此写出具体的统计值，如F值、t值，可以增强可信度。对于率、相关系数、均数这类描述统计量，要清楚写明进行过统计学检验并将结果列出。P值一般取0.05与0.01作为检验显著性，对于结果的计算要求具体的P值，如P=0.23或P=0.02。

2.在对论文进行讨论时，作为统计学方法产生的结果往往要作为作者的主要观点支持其科学假设，对统计结果的正确解释至关重要。P值很大表明两组间没有差别属于大概率事件，P值很小表明两组间没有差别的概率很小。当P<；0.05，表明差异具有统计学意义。P值与观察的样本量的大小有关联，当样本量小的时候，数据之间的差别即使很大，P值也可能很大；当样本量大时，数据之间的差别即使很小，P值也可能显示有显著性差异。相关系数统计学意义的显著性也与相关系数的大小没有绝对的关联，有统计学意义的样本相关系数可能很小。因此，有统计学差异的描述并不一定意味着两组间差别很大，错判的危险性很大，显著性的检验为定性的结果，结合统计量大小方可判断是否具有专业意义。

变量间虚假的相关关系与变量随时间变化而变化相关，统计学意义的关联并不表示变量间一定存在因果关系。因果关系的确定要根据专业知识和采用的'研究方法的不同来考量。使用回归方程进行分析，当两变量间具有显著性关系，但是从自变量推测因变量仍然不会很精确。相关或回归系数不能预测推测结果的精确程度，而只是预测一个可信区间。诊断性检验应用于人群发病率很低的疾病，灵敏度、特异度的高低对于明确疾病诊断并不能很肯定。“假阳性率”与“假阴性率”根据实际的需要不同要求并不一致，在疾病患病率很低时，出现假阳性也是正常的，要确诊疾病必须要与临床症状体征相结合。因此，这两个率的计算方法必须交待清楚。

三、医学论文统计学方法应用的常见错误分析

(一)“材料与方法”中的统计学方法应用的常见错误

“材料与方法”中统计学方法常见的问题主要为：对样本的选择或者研究对象的来源和分组描述很少或者过于简单。例如，临床入组病例分组只采用简单的随机分组，未描述随机分组的方法，未描述是否双盲双模拟，未设置空白对照组，分组后对性别、年龄、文化程度的描述未进行统计学检验，对于特殊的统计学方法没有详细交代；动物实验分组的随机化原则描述过于简单，没有具体说清完全随机、配对或分层随机分组等；统计分析方法没有任何说明采用的分析软件，有的只说明采用的分析软件而不交代在软件中采用的统计方法；没有说明原因的情况下出现样本量过于小等情况。

(二)“结果”统计学方法应用的常见错误

1.应用正确的统计学方法出现的结果表达并不一定正确。例如前文所述数据的精确度要求。医学论文常见错误中包括均数、标准差、标准误等统计学指标与原始数据应保留的小数位数不同；对于率、例数、比值、比值比、相对危险度等统计学指标保留的小数点位数过多；罕见疾病的发病率、患病率、现患率等指标没有选择好基数，导致结果没有整数位；相关系数、回归系数等指标保留的小数位数过多或者过少；常用的一些检验统计量，如F值、t值保留的位数不符合要求。

2.对统计学指标进行分析和计算时，一般采用计数资料和计量资料进行区分。计量资料常用三线表，在近似服从正态分布的前提下采用均数、标准差进行说明，如果不符合正态分布时，可以采用加对数或其他的处理方式使其近似正态分布，否则只能采用中位数和四分位数间距等指标进行描述。医学论文中常见未对数据进行正态分布检验的计算，影响统计结果的真实性和可信度。对于率、构成比等常用的计数资料指标，常见样本量过小的问题，采用率进行描述会影响统计结果的可靠性，采用绝对数进行说明会显得客观一些。还有一些文献将构成比误用为率，也是不可取的。

3.在判断临床疗效之一指标时，两组平均疗效有差别并不意味着两组的每一个个体都有效或无效，必须通过计算有效率进行计算。如比较某药物治疗糖尿病的疗效，服药一周后，研究组和对照组的对血糖降低值分别为6.7 ±2.4 和1.2 ±0.6 ( P = 0.000 1) 。按空腹血糖值低于7.7mmol/L的疗效判定有效率，研究组和对照组的有效率分别为75.6%和12.4% ，尽管平均疗效相差较多，但也要注意到该药物对部分患者无效(24.4%)。对假设检验结果的统计学分析结果，P 值的表达提倡报告精确P值，如P = 0.015或P = 0.321等。目前的统计学分析软件均可自动计算精确的P 值。例如常用的SAS，SPSS等，只要提供原始数据，就可以计算出t值、F值和相应的自由度，并可获得精确的P值。

四、小结

提高医学论文中统计学方法的使用质量是编辑部值得重视的一项长期而又艰巨的工作[3]，医学论文中统计方法应用和统计结果的表达正确与否，不仅体现了论文的科学性和严谨性，而且对于提高期刊整体的学术质量，促进医学科学的发展和传播也有着重要作用[4]。

参考文献：

[1] 李敬文,吕相征,薛爱华.医学期刊评论性文章摘要的添加对期刊被引频次的影响[J].编辑学报,2011(23).

[2] 陈长生.生物医学论文中统计结果的表达及解释[J].细胞与分子免疫学杂志,2008(24).

[3] 潘明志.新时期复合型医学科技期刊编辑应具备的素质和能力[J].中国科技期刊研究,2011 (22).

[4] 张春军,董凯.网络信息时代加强医学期刊编辑的信息素养[J].牡丹江医学院学报,2011(32).

300 评论 1小时前发布

三万英尺001

缺失值的处理：缺失值是人群研究中不可避免的问题，其处理方式的差异可能在不同程度上引入偏倚，因此，详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如，瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略，包括：将二分类结局中的缺失值视为未发生事件；将生物标志物和心电图测量中的缺失值进行多重填补（multiple imputation）；为了证明缺失值处理的合理性和填补结果的稳定性，研究还比较了多重填补与完整数据（complete-case）分析的结果。2、数据的预处理：实施统计分析之前往往需要将原始数据进行预处理，如：对连续变量进行函数转换使其更接近正态分布，基于原始数据构建衍生变量，将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据，瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述：确定统计分析使用的变量，并针对每一个变量的分布特征进行描述，是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求，但作者往往套用常用方法，如：连续变量符合正态分布时，采用均数（标准差）描述，否则采用中位数（四分位间距）描述；分类变量采用频数（百分比）描述等。事实上，应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如，CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征，而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析（primary analysis）：指针对研究结局的统计分析，是研究论文的核心证据。因此，医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中，应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。

133 评论 11小时前发布

微微王chichi

杜院士是博士毕业马上要上院士在学校当老师的医生。

最近他老人家给我种草了统计学，三言两语我被问的一愣一愣的，感觉自己以前学的统计学都被狗吃了。

我决定要弱弱地回击一下。嗯，先扳回三十城吧。

好，开始。

是统计学方法必须描述的3方面内容。

SPSS (statistics package for social science) 和 SAS (statistical analysis system ) 是全世界学术界公认且最常用的两大统计软件包。

检验水准即—— 表示组间实际无差别而统计结果判断为有差别，犯这类错误的概率。实际工作中常取，表示本次研究计算所得值必须小于 0.05 ，才能认为组间差异有统计学意义。因而对于检验水准的描述多简化为 " " 。

统计分析方法的准确描述是科技论文科学性的关键所在。统计学方法一般包括和 (即：假设检验 ) 两部分内容。

统计描述主要是根据资料类型及原始数据分布类型，选择正确的指标描述资料特征。

资料类型分为定量资料和定性资料。

定量资料是指对每个观察对象测得的某个指标能够用具体数值表示，如：年龄、身高、每张切片的阳性细胞百分率等;

定性资料指对每个观察对象测得的某个指标不能用具体数值表示，仅反映观察对象的某一特征，如: 阳性、阴性，ABO 血型，治愈、显效、好转、无效等。

定量资料如果符合正态分布，统计描述指标可用均数及标准差，一般描述为 “数据以均数±标准差表示” ;

定量资料如果不符合正态分布，则统计描述指标选用中位数和级差 (即: 最大值和最小值之差)。

区分资料是正态或偏态分布，可以通过SPSS、SAS 统计软件程序判断，也可以通过目测数据是否有"极端值"，即特别大或特别小的数据，进行判断。

定性资料的统计描述包括率、构成比及相对比。

率表示单位时间内某现象或事物发生的概率，如发病率、死亡率等；构成比指事物内部某一部分的个体数与该事物各部分个体数的总和之比，表示各构成部分在全体中所占的比重或分布，不能说明某现象发生的频率或强度，如性别构成、疾病构成、死亡构成等。然而，在实际应用中以构成比代替率很常见。

科技论文中最常用的是组间差异性检验。假设检验方法很多，不同的科研设计类型及资料类型适用的检验方法有所不同。定量资料与定性资料常用的统计分析方法介绍如下。

定量资料的统计分析方法包括参数法和非参数法 . 参数法——t检验、方差分析；非参数法——秩和检验。选择的关键在于资料分布类型，如果资料符合正态分布且组间方差齐 (即各组标准差彼此接近) 则选用参数法，不符合则选用非参数法。但在许多医学论文中经常忽略这两个条件，不考虑资料的分布直接采用t 检验或方差分析，由此得出的分析结果是不可信的，见例1。

例1: 为研究、肿瘤标志在喉癌患者手术前、后有无差异，分别检测了58 名患者前及术后和，经配对检验，术前、后差异有统计学意义，结果见表1。

表1. 肿瘤标记物术前术后的检测*

与术前比较p值﹤0.05

表中两指标标准差均相差达2 倍以上，提示方差不齐，故不宜采用t 检验，而适合采用秩和检验。用于两组均数间的比较，包括两独立样本检验、配对检验和样本均数与总体均数比较的检验；用于两组或两组以上均数的比较。然而,在许多医学论文中，对于3 组或3 组以上均数的两两比较，常重复使用独立样本t 检验作比较，如例2。这样会加大犯阳性错误的概率，即可能将无差别的两个总体均数判断为有差别。这点尤其需引起作者的注意，这也是医学科技论文中滥用的重要表现之一。

此类资料正确的分析方法应是先进行方差分析，以确定这几组均数总体差异有无统计学意义；如果有统计学意义，则进一步采用 (任意组间两两比较) 或 (每个实验组与对照组比较) 以确定哪些组间差异有统计学意义。

例2: 为了解不同分化程度的下咽癌患者表达阳性脉管的数目表达阳性脉管差异，分别检测16 例高分化患者，15 例中分化者及13 例低分化者，作者采用独立样本，结果见表2。

表2 下咽癌组织中VEGFR- 3 表达阳性脉管与病理分级的关系

各组之间p 值﹥0.05

定性资料整理与归纳后，主要分为3种类型，即四格表资料 (只有2组，且结果变量为2分类变量，总络子数为4见表3)、行×列表资料 (总格子数>4，见表4) 和列联表资料 (又称双向有序资料，见表5)。行×列表资料又包括单向有序资料 (即等级资料，2组或2组以上，结果变量为有序多分类变量，见表6)。不同资料类型采用的统计分析方法有所不同。

表3 四格表资料格式

表4 行×列表资料格式

表5 列联表资料格式

表6 单向有序资料格式

四格表资料χ2 检验医学论文中，四格表资料χ2 检验的应用很常见，但使用时应注意具体的应用条件。当总例数大于40，且每个格子的理论频数均不小于5 时，应用未校正的χ2 检验;如果总例数大于40,有一个格子的理论频数小于5 但大于1，采用校正的χ2 检验; 如果总例数小于40，或有一个格子的理论频数小于1，则采用Fisher 确切概率法。实际应用中，许多作者不考虑应用的前题条件，均使用未校正的χ2 检验，从而导致结果不可靠。行×列表资料χ2 检验行×列表资料χ2 检验主要用于多个率或构成比的比较。但此时要求所有格子中理论频数小于5 的格子数少于总格子数的1/5。如果大于1/5 ，则相邻格子应删除或合并后再计算。此时若需了解具体那些率之间差异有统计学意义，就需进行χ2 分割来确定。

单向有序资料此类资料如果是比较组间治疗效果差异有无统计学意义，则应采用秩和检验。如果采用χ2 检验，仅表明各组的疗效构成差异有无统计学意义，因为此时只利用了每组构成比提供的信息，损失了有序指标提供的“等级”信息。这也是许多作者误用统计学方法的资料类型之一，需尤其注意。列联表资料χ2 检验此类资料特征为对同一组观察对象，分别观察其两种有序分类变量的表现，归纳成双向交叉排列的统计表，分析两个分类变量是否有相关联系的假设检验，采用行×列表χ2 检验。

如果需了解两变量有无相关性，或相关程度有多大，此时需作相关分析。相关分析应报告相关系数及对该相关系数所作的假设检验P 值。相关系数种类很多，选择时应根据指标类型来确定。如果是计量指标,则应选择 Pearson 相关系数 ; 如果是等级指标，则应选择 Spearman 相关系数。

首先要明确“P 值< 0.05”，习惯上称“显著”(significant) ，仅说明两组差异有统计学意义，并不能说明两组该指标相差很大，或在专业上有显著的(重要的)价值; 反之，P 值>0.05，习惯上称“不显著”(non significant) ，不应误解为相差不大，或一定相等，仅说明从统计角度考虑这两组差异无统计学意义。为了不与一般意义上的“显著”、“不显著”相混淆，许多统计学家主张作结论时不用“是否显著”一词，而用“差异有无统计学意义”。

此外，根据统计结果得出专业结论不能太绝对化，因为统计结论均是概率性的，不是绝对的肯定或否定，本次研究统计结果是阴性，如果增加样本含量，组间差异可能就有统计学意义了。

综上所述，不同的统计分析方法均有其应用条件和适用范围，实际应用时，必须根据科研设计类型及变量类型选择恰当的统计分析方法，同时注意检查结果解释和专业结论是否同时满足专业和统计学要求。切忌将t 检验、χ2 检验视为分析资料的“万能工具”，盲目套用，导致文章的科学性降低。

109 评论 12小时前发布

医学论文统计学方法

3个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序