青春你还
秋风送爽,也给我们送来了刘岭教授的统计说说第五期。这一期的统计学方法之选择大家一定要认真学起来,说不定马上你就会用到了。编者语针对常用的基本统计学方法,一般而言说的就是t检验、单因素方差分析和卡方检验,这也是大家在写论文、阅读论文时经常遇到的统计学方法(几乎每篇文章都会涉及这一种或几种方法),那到底该采用何种统计学方法呢?今天我们就此来聊聊。一、拿到数据开始分析之前,一定要进行数据类型的划分(图1),因为不同数据类型资料,描述的方式不一样,统计学方法也不一样。图1 统计资料的类型举个例子(表1):表1 某地2002年735例65岁以上老年人健康检查记录二、各种类型资料的统计分析(描述与统计推断)1.计量资料特点:每个观察单位的观察值之间有量的区别,有单位;描述形式:最常见采用“X±S”(一般文献中经常见到),用算数均数描述其平均水平,用标准差描述其离散程度。如果遇到数据“特别变态”(特别是标准差大于算数均数),就采用Md(P25,P75)(Md为中位数,P25和P75为四分位数)(表2)。正态分布检验请大家复习:医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验表2 计量资料常用统计指标的特点及其应用场合统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计量资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是满足正态方差齐性时采用t检验(注意t检验有三种形式哦!)或单因素方差分析,不满足时采用秩和检验(图2)。图2 计量资料统计方法的正确选择提醒两点:① 如果样本数据不服从正态分布的话,那就只能用非参数检验(秩和检验),但其检验效能低于参数检验(t检验或方差分析)。所谓检验效能低就是本身有差异,却没有能力发现其差异。② 如果是两组以上样本的数据时,不能采用t检验(会导致假阳性错误概率增加),应该采用方差分析。若方差分析的P<,需再进一步两两比较,常用的方法为LSD法或SNK法(注意依旧不能采用t检验)。在上两讲内容中我们已经学过t检验(医学科研课堂丨统计说说(二):你的t检验做对了吗?)和方差分析(医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析)了,至于秩和检验,我们以后会逐步介绍滴。多因素分析一般采用回归分析,主要是线性回归分析,以后会给大家介绍此方法。2.计数资料特点:无序分类,同类别中各观察单位之间没有量的差别,但各类别间有质的不同,各类别互不相容。其中二分类一定是计数资料(例如性别只有男/女之分,是否继发某种疾病只有继发/未继发之分),而多分类满足分类在性质上没有程度等级上的差别,即为计数资料(例如婚姻状况包括未婚、已婚、离异、丧偶,就属于多分类,但各分类没有程度等级差别,因此为计数资料,尿糖定性检测结果包括-、+、++、+++、++++,属于具有程度等级差别的多分类资料,就不属于计数资料,属于等级资料了)。描述形式:最常见采用“例数(%)”(一般文献中经常见到),主要要分清构成比(结构相对数)和率(强度相对数)的差别(表3)。而且在应用时,分母(就是样本量啦)一般不宜过小,分母太小不足以反映数据的客观事实,也不稳定。表3 计数资料常用统计指标的特点及其应用场合比如说:1.某地肺癌患者中男性A例,女性B例,则当地肺癌患者的性别比为A/B就是“比”。2.某次研究共检出了致病菌3种,总株数为A+B+C,其中一种致病菌检出株数为A,那么A/(A+B+C)就是构成比,即该种致病菌占总致病菌的比重或分布。3.某研究对患者(总例数为B)进行治疗,结果治愈的患者例数为A,则A/B即为率(可以理解为治愈率)。统计推断方法:一般分为单因素和多因素两种。单因素分析方法分析要点:一是划清数据类型(计数资料);二是明确试验设计类型(完全随机设计?几组样本?);三是注意所用方法的应用条件;四是多样本率比较,若卡方检验的P<,需再进一步两两比较,并进行Bonferroni校正,以控制假阳性(图3)。图3 计数资料统计方法的正确选择提醒两点:① 构成比是以100作为基数,各构成部分所占的比重之和必须为100%,故某组成部分所占比重的增减必影响其它组成部分的比重;② 构成比和率在实际应用时容易混淆,主要区别在分母上,所以应正确选择分母。多因素分析一般采用回归分析,主要是Logistic回归分析,以后会给大家介绍此方法。3.等级资料特点:属于多分类资料,满足多分类在性质上有程度等级上的差别,各分类属性按一定顺序排列(有序),即为等级资料。描述形式:最常见采用“例数(%)”(一般文献中经常见到),这和计数资料的描述大体相同,主要区别在于多个分类排列时一定要按照顺序进行(从小到大或从弱到强)。统计推断方法:等级资料的统计分析方法在单因素分析中采用非参数检验(秩和检验),当然对于双向有序R×C资料,也就说分组变量和结局变量都是有序(等级)的情况,构成比的比较采用卡方检验,程度的比较采用秩和检验,趋势关联性的比较用秩相关(也称等级相关)。多因素分析中采用有序Logistic回归。注意:分类变量(计数资料和等级资料)在软件分析操作时,要适当数量化处理(赋值),赋值情况会直接影响统计分析结果的解释。最后用下面这张图来总结基本统计学方法的选择(图4)。图4 常用基本统计学方法的正确选择今天的内容就到这里,同学们多多复习,有什么问题和不懂的可以在下面留言,我们会请刘岭教授一一解答。好了,让我们期待下一期吧!撰稿:刘岭 约稿编辑:刘芹排版:毕丽 审核:王东专家简介刘岭:陆军军医大学卫生统计学教研室副教授,主要从事卫生统计学教学、科研工作。担任中华卫生信息学会第八届统计理论与方法专业委员会委员,重庆市预防医学卫生统计专业委员会副主任委员,并担任《第三军医大学学报》等多家杂志的编委、统计审稿专家。历史推荐医学科研课堂丨统计说说(四):统计学方法之灵魂—方差分析 医学科研课堂丨统计说说(三):你所应该了解的正态、方差齐性检验 医学科研课堂丨统计说说(二):你的t检验做对了吗? 医学科研课堂丨统计说说(一):样本量估算是个什么东东?
朱迪迪迪
论文常用数据分析方法
论文常用数据分析方法,对好的论文分析研究方法应该从哪些方面展开,如何表达才能显得自己对该论文真的有所理解,应该看哪些书呢?下面我整理了论文常用数据分析方法,一起了解看看吧!
论文常用数据分析方法分类总结
1、 基本描述统计
频数分析是用于分析定类数据的选择频数和百分比分布。
描述分析用于描述定量数据的集中趋势、波动程度和分布形状。如要计算数据的平均值、中位数等,可使用描述分析。
分类汇总用于交叉研究,展示两个或更多变量的交叉信息,可将不同组别下的`数据进行汇总统计。
2、 信度分析
信度分析的方法主要有以下三种:Cronbach α信度系数法、折半信度法、重测信度法。
Cronbach α信度系数法为最常使用的方法,即通过Cronbach α信度系数测量测验或量表的信度是否达标。
折半信度是将所有量表题项分为两半,计算两部分各自的信度以及相关系数,进而估计整个量表的信度的测量方法。可在信度分析中选择使用折半系数或是Cronbach α系数。
重测信度是指同一批样本,在不同时间点做了两次相同的问题,然后计算两次回答的相关系数,通过相关系数去研究信度水平。
3、 效度分析
效度有很多种,可分为四种类型:内容效度、结构效度、区分效度、聚合效度。具体区别如下表所示:
4、 差异关系研究
T检验可分析X为定类数据,Y为定量数据之间的关系情况,针对T检验,X只能为2个类别。
当组别多于2组,且数据类型为X为定类数据,Y为定量数据,可使用方差分析。
如果要分析定类数据和定类数据之间的关系情况,可使用交叉卡方分析。
如果研究定类数据与定量数据关系情况,且数据不正态或者方差不齐时,可使用非参数检验。
5、 影响关系研究
相关分析用于研究定量数据之间的关系情况,可以分析包括是否有关系,以及关系紧密程度等。分析时可以不区分XY,但分析数据均要为定量数据。
回归分析通常指的是线性回归分析,一般可在相关分析后进行,用于研究影响关系情况,其中X通常为定量数据(也可以是定类数据,需要设置成哑变量),Y一定为定量数据。
回归分析通常分析Y只有一个,如果想研究多个自变量与多个因变量的影响关系情况,可选择路径分析。
圓滿如意妹
写论文常用的数据分析方法如下:
一、描述统计
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
二、相关分析
相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。
1、单相关:是指两个变量之间的相关关系。如产品产量与单位产品成本之间的关系等。只有一个因变量和自变量。
2、复相关:是指一个变量与另外两个或两个以上变量之间的相关关系。
3、偏相关:在某一现象与多种现象相关的场合,两个随机变量在排除了其余部分或全部随机变量影响情形下,称为偏相关。
三、方差分析
通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。各研究来源必须是相互独立,且各总方差相等。
1、单因素方差分析:研究中只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。
2、多因素有交互方差分析:有两个或者两个以上的因素对因变量产生影响,同时考虑多个因素之间的关系。
3、多因素无交互方差分析:分析多个因素与因变量的关系,但是各因素之间没有影响关系或忽略影响关系。
四、假设检验
1、参数检验:其基本原理是已知总体的特征下,对一些主要的参数进行检验。
2、非参数检验:非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。主要方法有:总体分布的卡方检验、二项分布检验、单样本K-S检验等。
哈哈的静静哈
正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上,那些事先没有研究目的和研究设计,事后找来一堆数据进行统计分析都是不可取的。 在医学论文的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内容不符,包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨论偏离了论文的主题;还有是目的不明确、设计不合理。如题目过小,论文不够字数,而一些无关紧要的变量指标或结果被分析被讨论;又如题目过大,论文的全部内容不足以说明研究的目的,使论文的论点难以立足。 所以,合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首要问题。此外,样本含量是否满足,抽样是否随机,偏倚是否控制等,也是不可忽视的问题。2、建好分析用的数据库建好数据库是正确统计分析的前提和基础,甚至决定了论文分析结果的成败。对于编、审、读者来讲,一般由于篇幅的限制,往往得不到数据库数据,而只有作者在数据库数据基础上经统计描述计算后给出的诸如各指标均数 x、标准差 s 或中位数 M、百分位数 Px 的“二手”数据,或将研究对象小或特征属性分组,清点各组观察单位出现的个数或频数的频数表数据等。 无论是否能够得到数据库数据,作者在统计分析过程中一定依据数据库数据进行计算,得出结果。如果对“二手”数据或频数表数据的结果等存在疑惑,编辑、审稿专家或读者有权要求作者提供数据库数据以检查其完整性、准确性和真实性,确保研究数据的质量。假若在投稿须知中对数据库数据作出必要的要求,无疑对于保证刊物的发表质量有着积极的意义
绝大多数的论文撰写,均需通过一定数量临床病例(或资料)的观察,研究事物间的相互关系,以探讨客观存在的新规律。如确定新诊断、新治疗等措施是否优于原沿用的方法,就需
首先,要了解数据分析的一般流程是什么? 可以将一个完整的数据分析项目分为以下五个流程: 数据获取 外部数据主要有三种获取方式,一种是获取国内一些网站上公开的数据
excel只能做简单的数据处理,稍微难度些的建模分析,则需要用spss或者r等,一般毕业设计中都是不承认excel的吧
Excel:普遍适用,既有基础,又有中高级。 Excel透视表:中级一般用Excel透视表。 hihidata:比较小众的数据分析工具,三分钟就可以学会
绝大多数的论文撰写,均需通过一定数量临床病例(或资料)的观察,研究事物间的相互关系,以探讨客观存在的新规律。如确定新诊断、新治疗等措施是否优于原沿用的方法,就需