专业的吃货一枚
卡方检验是很常用的一种分析方法,什么情况下使用卡方检验?
如果你手上的数据是一种定类数据,比如性别(男、女)是否患病(是、否)。你还想要分析定类数据和定类数据之间的差异关系。
例如想要分析性别和是否抽烟之间的关系。这一句话里面包含两个词语,分别是:性别,是否抽烟。性别为X,是否抽烟为Y。性别为定类数据,是否抽烟也是定类数据,此时就可以使用卡方检验。
这篇文章分享分别使用两种常见统计分析工具 SPSS 和 SPSSAU 完成卡方检验。SPSS是目前常用的统计软件,SPSSAU是更简单的在线数据科学分析工具。
一、案例数据
想研究性别和是否抽烟之间有没有关系,男性抽烟的比例有没有更高等,通过抽样调查得到如下数据:
二、卡方检验怎么做?
1、SPSS操作步骤
(1)传入数据或输入数据
打开SPSS软件,上传如下图所示的数据格式文件,或者在SPSS软件中手动输入下图所示数据:
(2)数据加权处理
因为输入的数据是汇总格式,所以在进行卡方检验之前,我们需要先对数据加权处理,加权处理后,系统会将“人数”这一列的变量识别为频数,而不是一个数值。
数据加权的步骤如下:
在主页面点击【数据】-【加权个案】
弹出加权个案操作的对话框,选中【加权个案】
将【人数】变量拖入【频率变量】框中,点击【确定】。
这样就完成了数据加权处理,下一步可以做卡方检验了。
(3)卡方检验操作
点击【分析】-【描述统计】-【交叉表】
弹出交叉表操作对话框,按照下图的关系将三个变量放入对应的分析框中。
放好之后就是这个样子:
放好变量后,接着设置:点击【统计量】-在弹出的对话框中选中【卡方】,并选中名义栏中的【Phi和Gramer变量】-点击【继续】
此时回到交叉表对话框,点击【确定】得出分析结果。
(4)卡方检验结果
SPSS看输出的卡方检验结果,主要看卡方值和P值。
2、
以下介绍使用SPSSAU-在线SPSS分析工具两步快速完成卡方检验。
(1)上传数据
进入SPSSAU系统,将加权格式数据上传到SPSSAU系统中:
(2)卡方检验操作
点击实验/医学研究面板中的【卡方检验】-拖拽三个【分析变量】分别到对应分析框-【开始分析】即可。
(3)分析结果
SPSSAU输出卡方检验分析结果,主要关注两个值,卡方值和p值。
另外输出各种卡方检验统计量过程值和效应量指标。
SPSSAU所有分析结果表格均为论文要求标准三线表,可直接点击【复制】图标一键复制分析结果到word文档中使用,无需再自己调整表格格式~
SPSSAU提供智能分析建议,刚接触统计分析的小白可以借助分析建议完成分析结果解读。
SPSSAU还自动输出文字分析结果,供大家参考去撰写分析结果,可直接复制粘贴使用。
SPSSAU自动将结果表格数据可视化,大家可以根据需要选择各种常用图表:
①堆积柱形图
②柱形图
③堆积条形图
④条形图
如果不喜欢图形样式,还可以根据使用场景选择合适的样式:
总结: 可以看到,SPSS和SPSSAU两个统计分析工具卡方检验的结果是相同的,且使用SPSSAU更简单更智能更方便~
碎碎瓶安
1、建立数据文件。对新手而言此步最关键。
打开软件,“新数据集”, 假如是一个两列三行的数据,在Excel中原始表可以是两列并立,共3行数字,而此时在SPSS中新数据集建成后则一般为单列6行数字。
在变量视图中设置变量为第一步,假如在Excel中是一个两列三行的数据,在Excel中两列题头分别为“不突出子宫”“突出子宫”,在Excel中三行分别为“粘连型”“植入型”“穿透型”,则在SPSS中需设置3个变量,第一变量名称填为“位置”,类型选“字符串”,测量选“名义”; 第二变量名称填为“类型”,类型选“字符串”,测量选“名义”; 第三变量名称填为“数值”,类型选“数值”,测量选“度量”;
(图1)
在数据视图中开始输入数据,在第一列位置下第1、2行分别输入“不突出”“突出”,第3、4行;5、6行同1、2行;在第二列类型下第1、2行输入“粘连型”,3、4行输入“ 植入型”,5、6行输入“ 穿透型”;在第三列数值下输入各类数据的具体值。
至此,数据集建立完毕。
2、单击主菜单“数据"-”加权个案“,打开加权个案对话框。从左边源变量选择“数值”作为权变量,将其选入“频率变量:”框中,单击”确定“按钮,执行加权命令。
加权后此行数值作为个数出现,如35表示有35例;而不加权则此行数值作为单一数值,如35cm之类。
3、单击主菜单中的“分析”-“描述统计”-“交叉表”,打开对话框。
将左边源对话框中的“位置”作为行变量调入“行:”下的矩形框;“类型”作为列变量调入“列:”下矩形框。
4、单击“交叉表”对话框中的“统计量”选项,选中“卡方”,单击“继续”,返回到“交叉表”对话框。
5、单击"单元格"选项,在计数下激活“期望值”,在百分比下激活“行”,单击“继续”,返回到“交叉表”对话框。
6、在“交叉表”对话框中,单击"确定"按钮,即可得输出结果。
7、卡方检验结果:主要看pearson卡方检验行,pearson卡方数值即为卡方值(如下的),渐近显著性(sig)值即为P值(如下的),小于时认为不同位置对不同类型的胎盘判断有显著的差别。
扩展资料:
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。
SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。
1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。
参考资料:百度百科-spss
画布大小
1、处理四格表数据时不考虑样本量和最小理论频数而直接采用卡方检验处理四格表数据是卡方检验最为常见的用途之一,其目的在于分析“构成比”或者“率”上的差异是否具有统计学意义。对于四格表数据,使用卡方检验的条件为样本量大于 40,且最小理论频数应大于 5。对于某些小样本的、或者指标阳性率较低的研究,总样本量可能小于 40,最小理论频数也可能小于 5,此时应该采用 Fisher 确切概率法进行分析。比如某研究需比较小细胞肺癌和非小细胞肺癌内某个基因的表达情况的差异是否有统计学意义,得出如下四格表:该研究的样本量仅为 30 个,且最小理论频数为(12×9)/30=,所以应该采用 Fisher 确切概率法进行分析。实际上,从理论上讲,若要分析四格表数据中的构成比或者率之间的差异是否有统计学意义,Fisher 确切概率法的结果是最可靠的。若是使用软件对数据进行分析,不论样本量和最小理论频数,均可采用 Fisher 确切概率法。2、不考虑分析目的、设计类型而盲目套用卡方检验有的四格表资料本身是配对的,且研究的目的主要是回答“一致性”或者“不一致性”的问题,此时就不应该用卡方检验对数据进行分析。比如:某研究者发明了一种新的 HIV 检测法,并且用该法和免疫印迹法(检测 HIV 感染的“金标准”)同时检测了 100 份血清,得到如下四格表数据:该研究在设计上与表 1 中的研究最大的区别在于“配对”,即同一样本分别接受了新方法检测和免疫印迹法(金标准)的检测。研究者最关心的问题应该是“新方法和金标准之间的一致性”问题,若采用卡方检验进行分析,得出的结论是“免疫印迹法检测结果的频数分布在新方法阳性组和阴性组中是不同的”,这一结论显然并无多大专业价值。对于此类研究,可以采用两种方法进行统计,一是采用 Mcnemar χ2 检验公式计算两种方法不一致的部分是否具有统计学意义;二是采用 Kappa 检验分析两种结果之间的一致性。需要说明的是,此类研究中的一种方法必须是金标准,否则研究可能没有价值。以表 2 中的数据为例,若免疫印迹法并非检测 HIV 感染的金标准,两种方法的一致性即使好得一塌糊涂,也可能无济于事。因为一个显而易见的问题是:这两种方法可能都是错误的检测方法。比如:采用金标准对 100 份血清进行检测后,其中 90 例为阳性,而不论是新方法还是免疫印迹法,均仅仅检测出了 55 个阳性样本,漏检率显然太高。3、误用卡方检验处理等级资料等级资料的表示方法与分类资料相似,因此受“定式思维”的影响,部分同行“习惯性”地采用卡方检验对等级资料进行处理,这也是医学期刊上最常见的滥(乱)用卡方检验的行为。卡方检验回答的问题仅仅是“构成比”或者“率”上的差异是否具有统计学意义,而不能回答效应指标的强度高低问题。比如某研究比较了两类人群胰腺癌分期的分布状况,如下表所示:此类数据的一个显著特点是胰腺癌的分期(Ⅰ、Ⅱ、Ⅲ、Ⅳ期)是一个等级资料,研究者的研究目的是分析甲乙两群人胰腺癌的分期是否有差别,是一个强度“分期早晚”的问题,而不是“构成比”的差异。若用卡方检验处理此类数据,得出的结论就是“甲乙两类人群胰腺癌分期构成比上的差异是否具有统计学意义”,而无法明确“孰高孰低”的问题。以上述表格为例,卡方检验结果显示有统计学意义,但问题在于:根据表中数据,人群甲以Ⅰ期和Ⅳ期为主,人群乙以Ⅱ期和Ⅲ期为主,让人完全无法判断两类人群的疾病分期“孰早孰晚”的问题。处理此类数据的一般方法是将分期进行秩转换,然后以秩和检验进行统计分析,也可以直接采用 Riddit 分析进行统计。4、对于多组资料反复使用卡方检验进行比较又是研究者面对的数据可能有多行或者多列(R×C 资料),研究者需要逐一比较各组数据的差异是否有统计学意义。比如某研究者对不同血型的个体患乙型肝炎的情况进行了调查,得出如下数据:这是一个率的比较问题,研究目的主要在于分析各个血型的人群 HBV 感染的发病率是否相同。处理此类数据,一般是直接采用卡方检验从整体上分析各组人群率(构成比)上的差异是否具有统计学意义;若具有统计学意义,则根据研究目的进一步觉得是否进行组间的比较。以本研究为例,研究者可能还需要逐一比较各组 HBV 感染的发病率之间的差异是否具有统计学意义。处理此类数据时,最容易犯的一类错误就是将表格进行拆分成六个四格表反复采用卡方检验进行统计分析。实际上,这种错误的统计学方法类似于“反复使用 t 检验比较多组资料”,会增大Ⅰ类误差的概率。正确的做法应该是采用卡方分割法,通过改校正验水准的方式来进行两两比较。需要说明的是,在整体比较之后是否需要进行两两比较,如何进行两两比较在很大程度上取决于专业需要,或者说研究目的,特别是分组因素的“属性”是否相同。比如某研究欲分析了基因 A 在类风湿性关节炎中的表达情况(基因表达情况以阳性和阴性进行描述),除了健康对照外,研究者还设立了疾病对照组,包括系统性红斑狼疮和干燥综合症。
一、研究场景 卡方检验是一种假设检验的方法,它属于非参数检验的范畴,主要是用于分析定类数据与定类数据之间的关系情况。例如:分析性别与患病之间是否存在差异、性
医学毕业生毕业论文2篇 在西学东渐背景之下,我国医学开始了近代化进程。下面是我为大家整理的本科医学毕业论文,供大家参考。 摘要:目的:评价问题式教学法(PBL)
卡方检验用于检验两个变量之间的相关性。在进行卡方检验时,需要计算卡方值和p值。手算卡方检验的p值:1、计算卡方值:根据实际观测值和期望值,可以计算出卡方值,公式
卡方检验试用条件1.随机样本数据; 2.卡方检验的理论频数不能太小. 两个独立样本比较可以分以下3种情况: 1.所有的理论数T≥5并且总样本量n≥40,用Pea
统计原理好像真不懂了。您用ssps吗? 第一例为例先用Execl 输入表格 组别 痊愈 显进 进步 总例数 1 12 14 4 30 2 12 15 3 30再