蹦蹦跳跳321
秋风送爽,也给我们送来了刘岭教授的统计说说第五期。这一期的统计学方法之选择大家一定要认真学起来,说不定马上你就会用到了。编者语针对常用的基本统计学方法,一般而言说的就是t检验、单因素方差分析和卡方检验,这也是大家在写论文、阅读论文时经常遇到的统计学方法(几乎每篇文章都会涉及这一种或几种方法),那到底该采用何种统计学方法呢?今天我们就此来聊聊。一、拿到数据开始分析之前,一定要进行数据类型的划分(图1),因为不同数据类型资料,描述的方式不一样,统计学方法也不一样。图1 统计资料的类型举个例子(表1):表1 某地2002年735例65岁以上老年人健康检查记录二、各种类型资料的统计分析(描述与统计推断)1.计量资料特点:每个观察单位的观察值之间有量的区别,有单位;描述形式:最常见采用“X±S”(一般文献中经常见到),用算数均数描述其平均水平,用标准差描述其离散程度。如果遇到数据“特别变态”(特别是标准差大于算数均数),就采用Md(P25,P75)(Md为中位数,P25和P75为四分位数)(表2)。正态分布检验请大家复习:医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验表2 计量资料常用统计指标的特点及其应用场合统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计量资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是满足正态方差齐性时采用t检验(注意t检验有三种形式哦!)或单因素方差分析,不满足时采用秩和检验(图2)。图2 计量资料统计方法的正确选择提醒两点:① 如果样本数据不服从正态分布的话,那就只能用非参数检验(秩和检验),但其检验效能低于参数检验(t检验或方差分析)。所谓检验效能低就是本身有差异,却没有能力发现其差异。② 如果是两组以上样本的数据时,不能采用t检验(会导致假阳性错误概率增加),应该采用方差分析。若方差分析的P<,需再进一步两两比较,常用的方法为LSD法或SNK法(注意依旧不能采用t检验)。在上两讲内容中我们已经学过t检验(医学科研课堂丨统计说说(二):你的t检验做对了吗?)和方差分析(医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析)了,至于秩和检验,我们以后会逐步介绍滴。多因素分析一般采用回归分析,主要是线性回归分析,以后会给大家介绍此方法。2.计数资料特点:无序分类,同类别中各观察单位之间没有量的差别,但各类别间有质的不同,各类别互不相容。其中二分类一定是计数资料(例如性别只有男/女之分,是否继发某种疾病只有继发/未继发之分),而多分类满足分类在性质上没有程度等级上的差别,即为计数资料(例如婚姻状况包括未婚、已婚、离异、丧偶,就属于多分类,但各分类没有程度等级差别,因此为计数资料,尿糖定性检测结果包括-、+、++、+++、++++,属于具有程度等级差别的多分类资料,就不属于计数资料,属于等级资料了)。描述形式:最常见采用“例数(%)”(一般文献中经常见到),主要要分清构成比(结构相对数)和率(强度相对数)的差别(表3)。而且在应用时,分母(就是样本量啦)一般不宜过小,分母太小不足以反映数据的客观事实,也不稳定。表3 计数资料常用统计指标的特点及其应用场合比如说:1.某地肺癌患者中男性A例,女性B例,则当地肺癌患者的性别比为A/B就是“比”。2.某次研究共检出了致病菌3种,总株数为A+B+C,其中一种致病菌检出株数为A,那么A/(A+B+C)就是构成比,即该种致病菌占总致病菌的比重或分布。3.某研究对患者(总例数为B)进行治疗,结果治愈的患者例数为A,则A/B即为率(可以理解为治愈率)。统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计数资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是多样本率比较,若卡方检验的P<,需再进一步两两比较,并进行Bonferroni校正,以控制假阳性(图3)。图3 计数资料统计方法的正确选择提醒两点:① 构成比是以100作为基数,各构成部分所占的比重之和必须为100%,故某组成部分所占比重的增减必影响其它组成部分的比重;② 构成比和率在实际应用时容易混淆,主要区别在分母上,所以应正确选择分母。多因素分析一般采用回归分析,主要是Logistic回归分析,以后会给大家介绍此方法。3.等级资料特点:属于多分类资料,满足多分类在性质上有程度等级上的差别,各分类属性按一定顺序排列(有序),即为等级资料。描述形式:最常见采用“例数(%)”(一般文献中经常见到),这和计数资料的描述大体相同,主要区别在于多个分类排列时一定要按照顺序进行(从小到大或从弱到强)。统计推断方法:等级资料的统计分析方法在单因素分析中采用非参数检验(秩和检验),当然对于双向有序R×C资料,也就说分组变量和结局变量都是有序(等级)的情况,构成比的比较采用卡方检验,程度的比较采用秩和检验,趋势关联性的比较用秩相关(也称等级相关)。多因素分析中采用有序Logistic回归。注意:分类变量(计数资料和等级资料)在软件分析操作时,要适当数量化处理(赋值),赋值情况会直接影响统计分析结果的解释。最后用下面这张图来总结基本统计学方法的选择(图4)。图4 常用基本统计学方法的正确选择今天的内容就到这里,同学们多多复习,有什么问题和不懂的可以在下面留言,我们会请刘岭教授一一解答。好了,让我们期待下一期吧!撰稿:刘岭 约稿编辑:刘芹排版:毕丽 审核:王东专家简介刘岭:陆军军医大学卫生统计学教研室副教授,主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员,重庆市预防医学卫生统计专业委员会副主任委员,并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。历史推荐医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析 医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验 医学科研课堂丨统计说说(二):你的t检验做对了吗? 医学科研课堂丨统计说说(一):样本量估算是个什么东东?
小蘑菇少吃点
一般常用的统计检验方法有:t 检验、卡方检验、方差分析和相关回归分析。统计检验方法的选择主要依据数据的类型(计量、计数) 、组数的多少(两组、多组) 、样本量的大小以及对比的方式(相互比较、配对比较) ,此外计量数据还要考虑分布形态和方差齐性等问题。
穿风衣的猫2012
杜院士是博士毕业马上要上院士在学校当老师的医生。
最近他老人家给我种草了统计学,三言两语我被问的一愣一愣的,感觉自己以前学的统计学都被狗吃了。
我决定要弱弱地回击一下。嗯,先扳回三十城吧。
好,开始。
是统计学方法必须描述的3方面内容。
SPSS (statistics package for social science) 和 SAS (statistical analysis system ) 是全世界学术界公认且最常用的两大统计软件包。
检验水准即—— 表示组间实际无差别而统计结果判断为有差别,犯这类错误的概率。实际工作中常取 ,表示本次研究计算所得 值必须小于 ,才能认为组间差异有统计学意义。 因而对于检验水准的描述多简化为 " " 。
统计分析方法的准确描述是科技论文科学性的关键所在。统计学方法一般包括 和 (即: 假设检验 ) 两部分内容。
统计描述主要是根据资料类型及原始数据分布类型,选择正确的指标描述资料特征。
资料类型分为 定量资料 和 定性资料 。
定量资料 是指对每个观察对象测得的某个指标 能够用具体数值表示 ,如:年龄、身高、每张切片的阳性细胞百分率等;
定性资料 指对每个观察对象测得的某个指标 不能用具体数值表示 ,仅反映观察对象的某一特征,如: 阳性、阴性,ABO 血型,治愈、显效、好转、无效等。
定量资料如果符合正态分布, 统计描述指标 可用 均数及标准差 ,一般描述为 “数据以均数±标准差表示” ;
定量资料如果不符合正态分布,则 统计描述指标 选用 中位数和级差 (即: 最大值和最小值之差)。
区分资料是正态或偏态分布,可以通过SPSS、SAS 统计软件程序判断,也可以通过目测数据是否有"极端值",即特别大或特别小的数据,进行判断。
定性资料的 统计描述 包括 率、构成比及相对比 。
率 表示单位时间内某现象或事物发生的概率,如发病率、死亡率等; 构成比 指事物内部某一部分的个体数与该事物各部分个体数的总和之比,表示各构成部分在全体中所占的比重或分布,不能说明某现象发生的频率或强度,如性别构成、疾病构成、死亡构成等。然而, 在实际应用中以构成比代替率很常见 。
科技论文中最常用的是 组间差异性检验 。假设检验方法很多,不同的科研设计类型及资料类型适用的检验方法有所不同。定量资料与定性资料常用的统计分析方法介绍如下。
定量资料的统计分析方法包括 参数法 和 非参数法 . 参数法——t检验、方差分析;非参数法——秩和检验。 选择的关键在于 资料分布类型 ,如果资料符合 正态分布且组间方差齐 (即各组标准差彼此接近) 则选用参数法,不符合则选用非参数法。 但在许多医学论文中经常忽略这两个条件,不考虑资料的分布直接采用t 检验或方差分析,由此得出的分析结果是不可信的,见例1。
例1: 为研究 、 肿瘤标志在喉癌患者手术前、后有无差异,分别检测了58 名患者前及术后 和 ,经配对 检验, 术前、后差异有统计学意义,结果见表1。
表1. 肿瘤标记物术前术后的检测*
与术前比较p值﹤
表中两指标 标准差 均相差达2 倍以上,提示 方差不齐 ,故 不宜采用t 检验 ,而适合采用 秩和检验 。 用于两组均数间的比较 ,包括两独立样本 检验、配对 检验和样本均数与总体均数比较的 检验; 用于两组或两组以上均数的比较 。然而,在许多医学论文中,对于3 组或3 组以上均数的两两比较,常 重复使用独立样本t 检验作比较 ,如例2。 这样会加大犯阳性错误的概率 ,即可能将无差别的两个总体均数判断为有差别。这点尤其需引起作者的注意,这也是医学科技论文中 滥用的重要表现之一。
此类资料正确的分析方法应是先进行方差分析,以确定这几组均数总体差异有无统计学意义;如果有统计学意义,则进一步采用 (任意组间两两比较) 或 (每个实验组与对照组比较) 以确定哪些组间差异有统计学意义。
例2: 为了解不同分化程度的下咽癌患者 表达阳性脉管的数目 表达阳性脉管差异,分别检测16 例高分化患者,15 例中分化者及13 例低分化者,作者采用独立样本 ,结果见表2。
表2 下咽癌组织中VEGFR- 3 表达阳性脉管与病理分级的关系
各组之间p 值﹥
定性资料整理与归纳后,主要分为3种类型,即 四格表资料 (只有2组,且结果变量为2分类变量,总络子数为4见表3)、 行×列表资料 (总格子数>4,见表4) 和 列联表资料 (又称双向有序资料,见表5)。 行×列表资料 又包括 单向有序资料 (即等级资料,2组或2组以上,结果变量为有序多分类变量,见表6)。不同资料类型采用的统计分析方法有所不同。
表3 四格表资料格式
表4 行×列表资料格式
表5 列联表资料格式
表6 单向有序资料格式
四格表资料χ2 检验医学论文中,四格表资料χ2 检验的应用很常见,但使用时应注意具体的应用条件。当总例数大于40,且每个格子的理论频数均不小于5 时,应用未校正的χ2 检验;如果总例数大于40,有一个格子的理论频数小于5 但大于1,采用校正的χ2 检验; 如果总例数小于40,或有一个格子的理论频数小于1,则采用Fisher 确切概率法。实际应用中,许多作者不考虑应用的前题条件,均使用未校正的χ2 检验,从而导致结果不可靠。行×列表资料χ2 检验行×列表资料χ2 检验主要用于多个率或构成比的比较。但此时要求所有格子中理论频数小于5 的格子数少于总格子数的1/5。如果大于1/5 ,则相邻格子应删除或合并后再计算。此时若需了解具体那些率之间差异有统计学意义,就需进行χ2 分割来确定。
单向有序资料此类资料如果是比较组间治疗效果差异有无统计学意义,则应采用秩和检验 。如果采用χ2 检验,仅表明各组的疗效构成差异有无统计学意义,因为此时只利用了每组构成比提供的信息,损失了有序指标提供的“等级”信息。这也是许多作者误用统计学方法的资料类型之一,需尤其注意。列联表资料χ2 检验此类资料特征为对同一组观察对象,分别观察其两种有序分类变量的表现,归纳成双向交叉排列的统计表,分析两个分类变量是否有相关联系的假设检验,采用行×列表χ2 检验。
如果需了解两变量有无相关性,或相关程度有多大,此时需作相关分析。 相关分析应报告相关系数及对该相关系数所作的假设检验P 值 。相关系数种类很多,选择时应根据指标类型来确定。如果是计量指标,则应选择 Pearson 相关系数 ; 如果是等级指标,则应选择 Spearman 相关系数 。
首先要明确“P 值< ”,习惯上称“显著”(significant) ,仅说明两组差异有统计学意义,并不能说明两组该指标相差很大,或在专业上有显著的(重要的)价值; 反之,P 值>,习惯上称“不显著”(non significant) ,不应误解为相差不大,或一定相等,仅说明从统计角度考虑这两组差异无统计学意义。为了不与一般意义上的“显著”、“不显著”相混淆,许多统计学家主张作结论时不用“是否显著”一词,而用“差异有无统计学意义”。
此外,根据统计结果得出专业结论不能太绝对化,因为统计结论均是概率性的,不是绝对的肯定或否定,本次研究统计结果是阴性,如果增加样本含量,组间差异可能就有统计学意义了。
综上所述,不同的统计分析方法均有其应用条件和适用范围,实际应用时,必须根据科研设计类型及变量类型选择恰当的统计分析方法,同时注意检查结果解释和专业结论是否同时满足专业和统计学要求。切忌将t 检验、χ2 检验视为分析资料的“万能工具”,盲目套用,导致文章的科学性降低。
第一步,在检索文献前,要做一些准备工作,比如你论文的选题方向,还有相关医学知识信息的搜集,有了这些准备之后,检索文献才会更快更精准。 第二步,前期准备工作做完之
论文实证分析数据处理包括数据清洗、数据转换和数据分析。首先,进行数据清洗,包括检查数据质量、处理缺失值和异常值等。其次,进行数据转换,可以使用标准化、归一化等方
缺失值的处理:缺失值是人群研究中不可避免的问题,其处理方式的差异可能在不同程度上引入偏倚,因此,详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进
中位数和四分位数是用来描述分布未知或不满足正态分布的数据的集中趋势和离散趋势的,对于这种数据除了进行统计描述外,也可以进行统计推断.只是采用什么方法需要根据数据
绝大多数的论文撰写,均需通过一定数量临床病例(或资料)的观察,研究事物间的相互关系,以探讨客观存在的新规律。如确定新诊断、新治疗等措施是否优于原沿用的方法,就需