判别分析spss论文
判别分析spss论文
SPSS软件是“统计产品与服务解决方案”软件,是数据统计分析的一个重要的工具。下文是我为大家整理的关于spss统计分析论文的 范文 ,欢迎大家阅读参考!
统计分析软件SPSS的特点和应用分析
【摘要】通过文献资料法,介绍了统计分析软件SPSS的特点,并通过实例:用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析,对该软件的应用做了详细的介绍,旨在为学习SPSS软件的人们提供参考。
【关键词】统计分析软件;SPSS;独立样本;非参数检验
一、前言
统计分析软件SPSS是一款统计产品与服务解决方案的软件,其全称为“统计产品与服务解决方案(Statistical Product and Service Solutions)”。该软件是一款在统计中应用很广的统计分析软件,目前在各专业 毕业 论文经常可以看到它的身影,其应用范围广、方便快捷等特点吸引着众多的 爱好 者。本文通过对统计分析软件SPSS的功特点进行介绍,通过举例用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析,对该软件的操作用做了详细的介绍,为学习SPSS软件的人们提供参考。
二、SPSS软件的特点
(一)操作简便
SPSS软件的界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。
(二)编程方便
具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计 方法 的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。
(三)功能强大
具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。
(四)全面的数据接口
能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASCⅡ数据文件, Excel 的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt,word,PPT及html格式的文件。
(五)灵活的功能模块组合
SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。
(六)针对性强
SPSS针对初学者、熟练者及精通者都比较适用。并且现在很多群体只需要掌握简单的操作分析,大多青睐于SPSS,像薛薇的《基于SPSS的数据分析》一书也较适用于初学者。而那些熟练或精通者也较喜欢SPSS,因为他们可以通过编程来实现更强大的功能。
三、实例分析――两个独立样本的检验(Test for Two Independent Sample)
例题:为了调查甲、乙两地土壤对 种植 同一种西瓜有没有影响,从这两个产地分别随机抽取同种的8只和7只西瓜,称重后得重量(市斤)如下:
甲(斤):9.31、9.57、10.21、8.86、8.52、10.53、9.21、9.14
乙(斤):9.98、8.46、8.92、10.14、10.17、11.04、9.43
问:根据样本数据检验两地的土壤对种植西瓜在重量上是否有显著差异?
解:建立假设 H0:甲乙两地的西瓜重量没有显著差异;
H1:甲乙两地的西瓜重量有没有显著差异。
然后根据上面给出的数据建立数据文件,注意数据文件中有一个表示重量数据的变量和一个表示地区分组的变量。最后在数据编辑窗口进行检验。检验的具 体操 作过程如下:
第一步:单击Analyze Nonparametric Test 2 Independent Sample,打开Two-Independent-Sample对话框(见图1)。
第二步:选择检验的变量进入检验框中,选择分组变量进入Grouping Variable框中,单击Define Group键,打开Define Group对话框,将分组变量值分别键入两个框中,单击Continue返回主对话框(见图2):
第三步:在Test Type栏中,确定检验方法。
SPSS中提供了四种检验方式,几种检验方法侧重点不同,但都是先把两样本数据混合排序,再从不同的角度分析并检验两个独立总体的分布是否有显著的差异。有时这几种检验结果可能不一样,所以要结合数据的探索分析考察数据的分布状况作出结论。本文选择了常用的Mann-Whitney U曼―惠特尼检验和Kolmogorov-Smirnov Z K-S检验。
第四步:选择输出的结果形式及缺失值处理方式;
第五步:单击OK,得输出结果。
所以,以上两种检验结论是一致的。也就是说在两地种植的同一种西瓜地重量没有显著差异。
参考文献
[1]杜志渊.常用统计分析方法―SPSS应用[M].山东人民出版社,2011.
[2]刘宁元.运用SPSS对高职专业课程成绩进行相关分析[J].电脑与电信,2007(3).
[3]井海立.SPSS在数学试卷统计分析中的应用[J].科技信息(学术版),2006(10).
试谈SPSS软件在考试数据统计分析中的应用
摘要: SPSS软件是数据统计分析的一个重要的工具。本文作者利用SPSS软件对考试数据的相关性、检验假设进行了统计分析,介绍了使用SPSS进行统计分析的一般方法和步骤,文中的方法对考试研究人员具有一定的指导意义。
关键词: SPSS软件 考试数据 统计分析 操作步骤
1. 引言
一份好的试卷须有好的测量指标来表明它的优良程度,试题有难度和区分度指标,试卷有效度和信度指标,这些是评价考试最主要的测量指标,但是仅有这些指标不足以反映一份试卷的实际测量效果,考试研究人员希望从考生的试卷统计分析中获取更多的信息来评价一份试卷。在计算机未普及的年代,考试成绩统计主要依靠人工阅卷,考试数据无法电子化存储,对考试数据分析统计难以实现。随着计算机的普及和信息化的推广,各种分析数据的软件应运而生,这些软件中汇集了统计学和测量学的分析工具,使得应用电子信息技术分析统计考试成绩数据成为可能,这些统计信息可以为教研部门、考试行政部门进行行政决策等提供非常重要的帮助。在众多的统计分析软件当中,SPSS是应用最多、影响最广泛的分析工具之一。在本文中,我们以SPSS软件为工具,对 教育 招生考试成绩的数据进行统计分析,分析主要着重于考试数据的相关性、假设检验等几个方面。
2. SPSS分析软件简介
“SPSS统计分析软件”的英文名称为“Statistical Package for the Social Science”,中文名称为“社会科学统计软件包”,它是世界著名的统计分析软件之一,在自然科学、社会科学的各个领域均有非常广泛的应用。SPSS是一个组合式软件包,它集数据整理、分析于一身,主要功能包括数据管理、统计分析、图表分析、输出管理等,该软件的统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。
下面我们利用SPSS软件对考试数据的相关性、检验假设进行统计分析,介绍使用SPSS进行统计分析的一般方法和步骤。
3. 相关性分析
教育考试中,考试结果的信度,试题的区分度,每个题目得分与试卷总分的关系,以及题目之间的关系,等等,都是考试研究的重要内容,最主要的研究方法就是数据的相关性分析。在众多的教育考试数据的相关性分析方法中,Pearson相关系数法、Spearman相关系数法和Cronbach α信度系数法是比较常用的几种方法。
Pearson相关系数法计算公式:
式中x为第i个考生第j题的得分,y为第i个考生第k题的得分,为第j题的平均分,为第k题的平均分,n为测试样本量。该公式既可以计算两个连续变量之间的相关性,又可以计算一个双歧变量与一个连续变量之间的相关性。
Spearman相关系数法计算公式:
r=1-(2)
式中D为两个变量的秩序之差,n为样本容量。
Cronbach a信度系数法计算公式:
α= 1-(3)
式中n为试题数,s为第i题的标准差,s为总分的标准差。该公式实际上就是将考试中所有试题间相关系数的平均值(又称内部一致性)作为α信度系数。
对于给定的一组考生成绩数据,利用SPSS统计分析软件可以非常容易地定量分析考生某学科试卷总分和该学科某道题的相关性,以及各个题目之间的相关性。我们以Pearson相关系数分析为例,利用SPSS软件进行统计分析。
数据统计分析的对象是某省高考数学6道解答题的得分情况(不是整张试卷),数据源于该省的高考数据成绩。研究的目的是测量6道解答题每两个题目之间的相关性。
我们以SPSS 13.0版本的软件为例,介绍利用SPSS进行数据统计分析的步骤(以Pearson相关系数法为例):
(1)将考试数据导入SPSS软件,在SPSS数据窗口中,顺序点击【Analyze】→【Correlate】→【Bivariate...】,系统弹出变量相关系数设置对话框。
(2)在该对话框中,将待计算的变量从左侧的变量列表中导入到右侧的“Variables”变量列表中,在本例中导入t1、t2、t3、t4、t5、t6共6个变量(t1―t6是6道解答题的变量名称)。在“Correlation Coefficients”相关系数选项中,选取“Pearson”复选框。
(3)在该对话框的“Test of Significance”设置区域,可以点选“Two-tailed”选项或者“One-tailed”,我们采用系统默认值。
(4)对话框中的 其它 选项取软件系统的默认值,点击【OK】,开始相关系数计算,系统弹出新的窗体输出运算的结果。本次输出的情况如下:
上表的统计结果可用于题目之间相关性的分析。表中的大部分题目的相关系数都比较适中,但题目T4和题目T5之间的相关程度远高于其它几个题目,我们可以确信这两者之间一定存在着比其他题目之间更紧密的关系,这是我们通过分析获取的重要信息,该信息表明这两个题目之间的相关性高于其他几个题目之间的相关性,这在大规模考试中是不应该出现的,需要在以后的命题考试中加以改进。
Spearman相关系数分析方法和上述分析方法类似,只需要在上述SPSS操作的第二个骤中选取“Pearson”复选框,程序就会按Pearson相关系数法进行统计分析,如果同时选中“Spearman”和“Pearson”复选框,程序将会同时计算按两种分析方法统计分析的数据,并会以不同的图表进行显示,而Cronbach a信度系数法计算方法与上述方法略有不同,其操作步骤如下:
(1)在SPSS数据窗口中,顺序点击【Analyze】→【Scale】→【Reliability Analysis...】,系统弹出“Reliability Analysis”信度分析设置对话框。
(2)将待计算的变量从左列的变量列表中导入到右侧的“items”变量中,在左下列的“model”选择项的下拉列表中确保选中“Alpha”(信度系数),点击“Statistics”选择项可以进行更为详细的参数设置,我们采用系统的默认值即可。
(3)参数设置完毕之后,点击【OK】,软件开始相关系数计算并输出运算结果。
4. 选择题的选项分析
在目前的教育招生考试中选择题是一种较常见的题型,考试研究人员关注较多的是对选择题基本特征、测量功能及其优缺点的理论探讨[1][2],对选择题干扰项的设计及其施测后的实际效果关注甚少,事实上施测后对题目各选项的有效性作出判断可为评价试题质量提供重要参考依据。我们利用统计中χ检验假设,对试卷中常见的选择题选择项进行统计分析。
教育考试的单项选择项一般设置为4个,其中仅有1个选择项是正确的。命题人员在设计选择项时,应当也必然对每道题目所有的选择项(正确选择项和干扰选择项)的考生作答情况作出预测,对考生作答的分布情况作出预估。考试结束后,研究人员应该对实测的情况与命题教师预测的情况进行对比分析,以检验考试效果是否达到了预测的目标。这和χ拟合度检验的思想具有一致性,因此可以尝试使用χ检验假设进行分析。
我们依据文献[3][4]的方法来介绍χ检验假设在考试数据分析中应用的基本原理,设变量E是命题者对某道试题的期望值,E=nP,n为样本容量,P为期望的相对频率,引入以下统计量:∑(O-E)/E,其中O为观察频数。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
我们需要进行的假设检验是:零假设H:选项的实测分布与期望分布相同;非零假设H:选项的实测分布与期望分布不同。
检验假设的思想:拟合度检验的统计量在确定的某种显著性水平下如果零假设是真,则检验统计量∑(O-E)/E呈近似χ分布,其自由度为研究变量的可能值减1;如果实测分布与期望的分布相当吻合,就不排除零假设,否则就排除零假设;最后对检验假设的结果进行解释。
数据分析的目的是判断考生实际的应答结果(实测数据)与命题期望的选择概率(期望数据)是否一致。我们随机抽取某省5542个高考考生的数学有效数据构成分析样本,利用SPSS进行统计分析。
SPSS数据统计分析的步骤如下:
(1)将考试数据导入SPSS软件,依次点击【Analyze】→【Nonparametric Tests】→【Chi-Square...】,弹出“Chi-Square Tests”对话框。
(2)将变量列表中待分析的题目序号导入到“Test Variables List”(检验变量列表)中,本例中题目的序号为t7。
(3)将对选择试题的每个选项的期望值依次输入到“Expected Values”所属的方框,具体操作方法是选中单选框“Values”,输入具体的期望数值,点击“Add”按钮,依次重复上述的步骤直至所有的选项的期望值输入完毕。
(4)点击【OK】,输出软件运算结果。
我们需要进行的假设检验,H:选项的实测分布与期望分布相同;H:选项的实测分布与期望分布不同。
假设检验的显著性水平为α=0.05,χ=∑(O-E)/E,自由度为df=4-1=3,查χ分布表或利用相关软件可得P=0.0626,由于P>α,因此不能拒绝零假设,即选项的实测分布与期望分布相同。因此,检验结果在0.05显著性水平时,没有足够的证据拒绝零假设,即可认为本题选项的实测分布与期望分布相同,也就是说本题的实际测试效果与命题教师预测的效果是一致的,命题教师准确地估计了考生的实际水平,这是分析获得的很重要的结论。
5. 结语
SPSS软件在考试数据统计分析中应用广泛,但大部分是集中在试题难度、均值、方差统计、考试数据的图表显示等几个方面,本文从一个新的角度利用SPSS软件对考试数据的相关性、检验假设等几个方面进行了尝试性统计分析,介绍了使用SPSS进行统计分析的一般方法和步骤。从上述分析来看,软件操作步骤和统计分析过程十分简单、快捷,对于测量学和统计学基础不太好的数据分析统计人员来说,只要遵循一定的操作步骤,就可以进行分析。
参考文献:
[1]王孝玲.教育测量(修订版)[M].上海:华东师范大学出版社,2006.
[2]雷新勇.大规模教育考试:命题与评价[M].上海:华东师范大学出版社,2006.
[3]李伟明,冯伯麟,余仁胜.考试的统计分析方法[M].北京:高等教育出版社,1990.
[4]雷新勇.考试数据的统计分析和解释[M].上海:华东师范大学出版社,2007.
猜你喜欢:
1. 统计学数据分析论文
2. spss统计分析实习心得
3. 统计学学年论文
4. 统计学分析论文
spss分析方法-判别分析(转载)
判别分析是在分组已知的情况下,根据已经确定分类的对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。 下面我们主要从下面四个方面来解说:
[if !supportLineBreakNewLine]
[endif]
实际应用
理论思想
建立模型
[if !supportLineBreakNewLine]
[endif]
分析结果
[if !supportLineBreakNewLine]
[endif]
一、实际应用
判别分析最初应用于考古学, 例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等.。慢慢的成为一种常用的分类分析方法,其通过已知的分类情况,根据数据的特征对其他研究对象进行预测归类。
在实际生活中,判别分析也被广泛用于预测事物的类别归属。
[if !supportLineBreakNewLine]
[endif]
企业营销中,营销人员可通过已有的客户特征数据(如消费金额、消费频次、购物时长、购买产品种类等),预测当前的消费者属于哪种类型的顾客(款式偏好型、偏重质量型、价格敏感型...),并根据其特点有针对性的采取有效的营销手段。或是根据各成分含量指标,判断白酒的品牌或水果的产地等。
除此以外,判别分析还可与聚类分析结合使用。比如,银行的贷款部门想要在发放贷款之前,可通过此方法判断申请人是否具有良好的信用风险。
[if !supportLineBreakNewLine]
[endif]
二、理论思想
判别分析首先需要对研究的对象进行分类,然后选择若干对观测对象能够较全面描述的变量,接着按照一定的判别标准建立一个或多个判别函数,使用研究对象的大量资料确定判别函数中的待定系数来计算判别指标。对一个未确定类别的个案只要将其代入判别函数就可以判断它属于哪一类总体。
[if !supportLineBreakNewLine]
[endif]
常用的判别分析方法有距离判别法、费舍尔判别法和贝叶斯判别法。
[if !supportLineBreakNewLine]
[endif]
费舍尔判别法:
费舍尔判别法利用投影的方法使多维问题简化为一维问题来处理。其通过建立线性判别函数计算出各个观测量在各典型变量维度上的坐标并得出样本距离各个类中心的距离,以此作为分类依据。
[if !supportLineBreakNewLine]
[endif]
贝叶斯判别法:
贝叶斯判别法通过计算待判定样品属于每个总体的条件概率并将样本归为条件概率最大的组。其主要思想如下:首先利用样本所属分类的先验概率通过贝叶斯法则求出样本所属分类后验概率,并依据该后验概率分布作出统计推断。
[if !supportLineBreakNewLine]
[endif]
距离判别法:
距离判别思想是根据各样品与各母体之间的距离远近作出判别的。其通过建立关于各母体的距离判别函数式,得出各样品与各母体之间的距离值,判别样品属于距离值最小的那个母体。
[if !supportLineBreakNewLine]
[endif]
[if !supportLineBreakNewLine]
[endif]
三、建立模型
[if !supportLineBreakNewLine]
[endif]
一般判别分析法的思路:
首先建立判别函数;
然后通过已知所属分类的观测量确定判别函数中的待定系数;
最后通过该判别函数对未知分类的观测量进行归类。
逐步判别分析法的思路: 逐步判别分析分为两步
首先根据自变量和因变量的相关性对自变量进行筛选,
然后使用选定的变量进行判别分析。
逐步判别分析是在判别分析的基础上采用有进有出的办法,把判别能力强的变量引入判别式的同时,将判别能力最差的变量别除。最终在判别式中只保留数量不多而判别能力强的变量。
数据条件:
[if !supportLists]§ [endif]用户使用的分组变量必须含有有限数目的不同类别,且编码为整数。名义自变量必须被重新编码为哑元变量或对比变量。
[if !supportLists]§ [endif]个案独立的
[if !supportLists]§ [endif]预测变量应有多变量正态分布,组内方差-协方差矩阵在组中应等同。
[if !supportLists]§ [endif]组成员身份假设为互斥的(不存在属于多个组的个案),且全体为穷举的(所有个案均是组成员)。如果组成员身份为真正的分类变量时,则此过程最有效;如果组成员身份基于连续变量的值(如高智商与低智商),则用户需要考虑使用线性回归以利用由连续变量本身提供的更为丰富的信息。
一般判别分析案例:
[if !supportLineBreakNewLine]
[endif]
题目:以下3种不同种类豇豆豆荚的质量、宽度和长度的统计表,每种类型都为20个样本,共60个样本。根据不同种类豇豆豆荚的特征,建立鉴别不同种类豇豆的判别方程。
一、数据输入
[if !vml]
[endif]
二、操作步骤 1、进入SPSS,打开相关数据文件,选择“分析”|“分类 ”|“判别式”命令2、选择进行判别分析的变量。在“判别分析”对话框的左侧列表框中,选择“类型”进入“分组变量”列表框。单击“定义范围”按钮,在“最小值”和“最大值”中分别输入1和3,单击“继续”按钮返回“判别分析”对话框。分别选择“质量”“宽度”“长度”3个变量进入“自变量”列表框,选中“使用步进法”单选按钮。
[if !vml]
[endif]
3、设置判别分析的统计输出结果。
单击“判别分析”对话框中的“统计”按钮。在“函数系数”选项组中,选中“费希尔”和“未标准化”复选框;在“矩阵”选项组中,选中“组内协方差”复选框。设置完毕后,单击“继续”按钮返回“判别分析”对话框。
[if !vml]
[endif]
4、设置输出到数据编辑窗口的结果。单击“保存”按钮,选中“预测组成员”复选框。
[if !vml]
[endif]
5、其余设置采用系统默认值即可。单击“确定”按钮,等待输出结果。
[if !supportLineBreakNewLine]
[endif]
四、结果分析
1、组统计量表可以看出,每一种豇豆豆荚的质量、宽度和长度的均值和标准差,也可以知道总样本的均值和标准差。
[if !vml]
[endif]2、汇聚的组内矩阵表可以知道,各因素之间的协方差和相关系数。可以发现,各因素之间的相关性都较小,因此在判别方程中不需要剔除变量。
[if !vml]
[endif]
3
、输入和删除变量情况统计表可以知道,第一步纳入的变量是质量,到第三步所有变量全部纳入,且从显著性值均为0可以看出,逐步判别没有剔除变量。
[if !vml]
[endif]
4、典型判别方程的特征值可以知道,特征根数为2,其中第一个特征根为77.318,能够解释所有变异的89.4%。
[if !vml]
[endif]
5、判别方程的有效性检验可以看出,显著性均为0,因此两个典型方程的判别能力都是显著的。
[if !vml]
[endif]
6、标准化的典型判别方程可以知道,本例中的两个标准化的典型判别方程表达式分别为:Y1=0.681*质量-0.674*宽度+0.612*长度Y2=0.363*质量+0.777*宽度+0.302*长度
[if !vml]
[endif]
7、未标准化的典型判别方程可以知道,本例中的两个未标准化的典型判别方程表达式为:Y1=-11.528+0.210*质量-1.950*宽度+0.186*长度Y2=-15.935+0.112*质量+2.246*宽度+0.092*长度
[if !vml]
[endif]
8、贝叶斯的费希尔线性判别方程可以得到3个分类方程。在这里我们只写出第一个分类方程。Y1=-90.708+2.557*质量+18.166*宽度+1.922*长度[if !vml]
[endif]9、判别分析在数据编辑窗口的输出结果新产生的变量记录是每一样品的判别分类结果,可以看出,样品判别分类结果与实际类别是一致的。
[if !vml]
[endif]
分析结论:
[if !supportLineBreakNewLine]
[endif]
通过判别分析可以知道,在本案例中,3种豇豆豆荚的样品判别分类结果与实际类别是一致的。另外,我们可以得到不同的判别方程,分别包括标准化的典型判别方程、未标准化的典型判别方程和贝叶斯的费希尔线性判别方程,方程的表达式见上面的结果分析。
[if !supportLineBreakNewLine]
[endif]
参考案例数据:
[if !supportLineBreakNewLine]
[endif]
【1】spss统计分析与行业应用案例详解(第四版) 杨维忠,张甜,王国平 清华大学出版社
(获取更多知识,前往gz号程式解说)
原文来自
如何使用SPSS进行一般判别分析
作为一款专业的数据分析软件,IBM SPSS Statistics可以为金融、市场、医学等多个领域的数据分析提供巨大的帮助,是数理统计中较为常用的一个工具。
这篇文章将介绍如何进行 SPSS一般判别分析 。
概述
判别分析是在已知分辨数目的情况下,根据已知数据的分类指标和所属类别,对未知部分数据进行类别判断的分析方法。
图1:数据样本
上图是我们这里选择的一个数据样本,是某公司的员工基础信息,将雇佣类别简单分为管理和非管理后,有表中所示的分类,数据一共有474个个案,前四百个有明确的分类结果(即是否管理人员),后74个没有分类数据。
在这种一部分数据缺失的情况下,我们就可以利用SPSS的判别分析来对缺失数据进行分析补充,也就是这里提到的一般判别分析。
二、分析操作
1.功能位置
图2:判别分析位置
在“分析”——“分类”中选择“判别式”,就可以打开判别分析的对话框。
2.变量设置
图3:变量设置
将待分析的变量“雇佣类别(是否管理)”移入“分组变量”窗口,在下面的“自变量”窗口中移入分组依据。
在本数据中,员工是否是管理职位与其他几个变量均有一定关系,所以在“自变量”窗口中移入剩余变量类型作为目标变量。
如果要对数据集中的一个子集进行分析,可以使用“选择变量”窗口。
图4:定义范围
分组变量还需要进行范围设置,本数据中这是一个二分数据,为了避免0数据导致的缺失值,所以用2代替0,表示不是管理人员,1表示是管理人员,在范围中设置最小值为1,最大值为2即可。
3.输出统计
图5:输出统计设置
单击“统计”,可以设置在分析结果中数据的统计结果,包括描述性统计数据、函数系数和矩阵,各个数据均有一定的统计意义,我们这里设置输出样本的均值。
4.分类设置
图6:分类设置
分类对话框中设置的是先验概率和显示内容,将先验概率选择为“所有组相等”,我们没有使用协方差矩阵,这个设置不用管,设置输出图形为领域图。
5.保存设置
图7:保存设置
在保存对话框中可以设置判别分析的类型,选择“预测组成员”,如果有需要,也可以将模型信息导出到XML文件。
6.分析完成
图8:结果输出
设置完成后点击确定,就可以在输出日志窗口中看到判别分析的结果了。
除了工作日志里的分析结果,在数据页内,还会出现一个新的分组,如下图所示。
图9:判别结果
这个新的分组就是IBM SPSS Statistics完成判别分析的成果,可以看到,没有分类结果的部分数据已经被补充完整,本次分析就结束啦。
三、小结
以上就是我整理的关于如何使用 IBM SPSS Statistics 对数据分类进行判别分析、补充缺失的特定数据的具体方法和案例参考了,希望可以对大家有所帮助!
更多软件资讯和案例分享欢迎进入IBM SPSS Statistics中文网站查看。
SPSS判别分析
判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
y=a1x1+a2x2+……+anxn(a1为系数,Xn为变量)。事先非常明确共有几个类别,目的是从已知样本中训练出判别函数
1.各自变量为连续性或有序分类变量
2.自变量和因变量符合线性假设
3.各组的协方差矩阵相等,类似与方差分析中的方差齐
4.变量间独立,无共线性
注:违反条件影响也不大,主要看预测准不准,准的话违反也无所谓
1.对客户进行信用预测;2.寻找潜在客户等
1.最大似然法
适用于 自变量均为分类变量 的情况,算出这些情况的概率组合,基于这些组合大小进行判别
2.距离判别
对新样品求出他们离各个类别重心的距离远近,适用于 自变量均为连续变量 的情况, 对变量分布类型无严格要求
判别法
与主成份分析有关,对分布、方差等都没有什么限制,按照类别与类别差异最大原则提取公因子然后使用公因子判别
判别
强项是进行多类判别,要求总体呈多元正态分布 。利用贝叶斯公式,概率分布逻辑衍生出来一个判别方法,计算这个样本落入这个类别的概率,概率最大就被归为一类
在spss中一般用Fisher判别即可,要考虑概率及误判损失最小的用Bayes判别,但变量较多时,一般先进行逐步判别筛选出有统计意义的变量,但通常在判别分析前我们已经做了相关的预分析,所以不推荐使用逐步判别分析(采用步进法让自变量逐个尝试进入函数式,如果进入到函数式中的自变量符合条件,则保留在函数式中,否则,将从函数式中剔除)。
都是研究分类的。聚类分析,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)。判别分析则是在总体类型划分已知,对当前新样本判断它们属于哪个总体。如我们对研究的多元数据的特征不熟悉,当然要进行聚类分析,才能考虑判别分析问题。
1.自身验证(拿训练数据直接预测验证,但是对预测样本预测好不代表对新样本预测好)
2.外部数据验证(收集新的数据来验证,这是最客观最有效的,但是麻烦而且两次收集的数据不一定是同质的)
3.样本二分法(一般划分2/3为训练集,1/3为验证集,但是浪费了1/3的样本)
4.交互验证(Cross-Validation)----刀切法(10分法,数据划分为10个集合,每次挑选一个出来做验证集,其余9个做训练集,可以做10次,因为验证集可换10种可能)
在spss软件中通过【分析】—【留一分类】获得此项结论。
下面采用实例来说明。
如下图-1数据集包含了刚毛、变色、弗吉尼亚这三种鸢尾花的花萼长、宽和花瓣长、宽,分析目的是希望能够使用这4个变量来对花的种类进行区分。spno为事先的分组,度量标准设为【名义】。
主要是对假设条件的检验,在spss中 【分析】—【描述统计】—【描述】 ,如图-2
如图-3可以看到数据的分布没有特别的离异点,也没有缺失值和不合理的分布,从而可以用该数据做接下来的判别分析。
1)选择分类变量及其范围:如图-4所示
【分组变量】矩形框中选择表明已知的观测量所属类别的变量(一定是离散变量),在定义范围框最小值中输入该分类变量的最小值,最大框中输入该分类变量的最大值。
2) 指定判别分析的自变量
3) 选择观测量
如果希望使用一部分观测量进行判别函数的推导而且有一个变量的某个值可以作为这些观测量的标识,则用Select 功能进行选择,键入标识参与分析的观测量所具有的该变量值, 一般均使用数据文件中的所有合法观测量此步骤可以省略。
4) 选择分析方法:如图-5所示
【一起输入自变量】 选项,当认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。选择该项将不加选择地使用所有自变量进行判别分析,建立全模型,不需要进一步进行选择。
【使用步进式方法】 选项,当不认为所有自变量都能对观测量特性提供丰富的信息时,使用该选择项。因此需要判别贡献的大小,再进行选择当鼠标单击该项时【方法】按钮加亮,可以进一步选择判别分析方法。一般我们做判别分析前已经做了相关的预分析(不推荐)。
如图-6所示【方法】选项:步进法让自变量逐个尝试进入函数式,如果进入到函数式中的自变量符合条件,则保留在函数式中,否则,将从函数式中剔除。可供选择的判别分析方法有:
'lambda 选项,它是组内平方和与总平方和之比,用于描述各组的均值是否存在显著差别,当所有观测组的均值都相等时,Wilks’lambda值为1;当组内变异与总变异相比很小时,表示组件变异较大,表示组间变异较大,系数接近于0。系统默认选项。
2.未解释方差。 它指把计算残余最小的自变量优先纳入到判别函数式中。
nobis’距离 。它把每步都使靠得最近的两类间的马氏距离最大的变量进入判别函数
4.最小 F值。它把方差差异最大的自变量优先纳入到判别函数中。
’s V 。劳氏增值法:它把劳氏统计量V产生最大增值的自变量优先纳入到判别函数中。可以对一个要加入到模型中的变量的V 值指定一个最小增量。选择此种方法后,应该在该项下面的V-to-enter 后的矩形框中输入这个增量的指定值。当某变量导致的V值增量大于指定值的变量后进入判别函数。
【标准】:选择逐步判别停止的判据
1.使用F值。系统默认的判据。当加人一个变量(或剔除一个变量)后,对在判别函数中的变量进行方差分析。当计算的F值大于指定的进入值时,该变量保留在函数中。默认值是3.84:当该变量使计算的F值小于指定的删除值时,该变量从函数中剔除。默认值为2.71。即当被加入的变量F 值为3.84 时才把该变量加入到模型中,否则变量不能进入模型;或者,当要从模型中移出的变量F值<2.71时,该变量才被移出模型,否则模型中的变量不会被移出.设置这两个值时应该注意进入值>删除值。
2.使用F检的概率。决定变量是否加入函数或被剔除的概率而不是用F值。加入变量的F值概率的默认值是0.05(5%),移出变量的F值概率是0.10(10%)。删除值(移出变量的F值概率) >进入值(加入变量的F值概率)。
【输出】:对于逐步选择变量的过程和最后结果的显示可以通过输出栏中的两项进行选择:
1.步进摘要。要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。
2.两两组间距离的F值。要求显示两两类之间的两两F值矩阵。
这里我们选择建立全模型,所以不用对方法进行设置。
如图-7所示【statistics】选项:可以选择的输出统计量分为以下3 类:
(1) 描述性
1.平均值。可以输出各类中各自变量的均值、标准差和各自变量总样本的均值和标准差。
2.单变量ANOVA复选项。对各类中同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果。
’s M 复选项。对各组的协方差矩阵相等的假设进行检验。如果样本足够大,差异不显著的p值表明矩阵差异不明显。
(2)函数系数栏:选择判别函数系数的输出形式
h’s。给出Bayes判别函数的系数。对每一类给出一组系数,并给出该组中判别分数最大的观测量。(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fisher’s,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请注意辨别。)
2.未标准化。给出未标准化的判别函数(即典型判别函数)的系数(SPSS默认给出标准化的判别函数信息)。
(3)矩阵
1.组内相关。即类内相关矩阵,它是根据在计算相关矩阵之前将各组(类)协方差矩阵平均后计算类内相关矩阵。
2.组内协方差。即计算并显示合并类内协方差矩阵,是将各组(类)协方差矩阵平均后计算的。区别于总协方差阵。
3.分组协方差。对每类输出显示一个协方差矩阵。
4.总体协方差。计算并显示总样本的协方差矩阵。
如图-8所示【分类】选项:
(1) 先验概率:两者选其一
1.所有组相等。各类先验概率相等。若分为m类,则各类先验概率均为1/m。系统默认
2.根据组大小计算。由各类的样本量计算决定,即各类的先验概率与其样本量成正比。
(2) 使用协方差矩阵 :选择分类使用的协方差矩阵
1.在组内。指定使用合并组内协方差矩阵进行分类。系统默认
2.分组。指定使用各组协方差矩阵进行分类。
由于分类是根据判别函数,而不是根据原始变量,因此该选择项不是总等价于二次判别。
(3) 图:选择要求输出的统计图
1.合并组。生成一张包括各类的散点图。该散点图是根据前两个判别函数值作的散点图。如果只有一个判别函数就输出直方图。
2.分组。根据前两个判别函数值对每一类生成一张激点图,共分为几类就生成几张散点图。如果只有一个判别函数就输出直方图。
3.区域图。生成用于根据函数值把观测量分到各组中去的边界图。此种统计图把一张图的平面划分出与类数相同的区域。每一类占据一个区各类的均值在各区中用*号标出。如果仅有一个判别函数,则不作此图。
(4) 输出栏:选择生成到输出窗中的分类结果
1.个案摘要。要求输出每个观测量包括判别分数、实际类、预测类(根据判别函数求得的分类结果)和后验概率等。选择此项还可以选择其附属选择项:将个案限制在前,并在后面的小矩形框中输入观测量数n选择。此项则仅对前n个观测量输出分类结果。观测数量大时可以选择此项。
2.摘要表。要求输出分类的小结,给出正确分类观测量数(原始类和根据判别函数计算的预测类相同)和错分观测量数和错分率。
3.不考虑该个案时的分类(留一分类)。输出对每个观测量进行分类的结果,所依据的判别是由除该观测量以外的其他观测量导出的,也称为交互校验结果。建议勾选
(5)使用均值替换缺失值:即用该类变量的均值代替缺失值。缺失值缺失大于10%,不介意勾选
本例中如图-8中勾选。
如图-9所示【保存】选项:指定生成并保存在数据文件中的新变量
1.预测组成员。要求建立一个新变量,预测观测量的分类。是根据判别分数把观测量按后验概率最大指派所属的类。每运行一次Discriminant过程,就建立一个表明使用判别函数预测各观测量属于哪一类的新变量。第1 次运行建立新变量的变量名为dis_l,如果在工作数据文件中不把前一次建立的新变量删除,第n次运行Descriminant 过程建立的新变量默认的变量名为dis_n。
2.判别分数。要求建立fisher判别分数的新变量。该分数是由未标准化的判别系数乘自变量的值,将这些乘积求和后加上常数得来。每次运行Discriminant过程都给出一组表明判别分数的新变量,建立几个判别函数就有几个判别分数变量。
3. 组成员概率。Bayes后验概率值。有m类,对一个观测量就会给出m个概率值,因此建立m个新变量。
本例不勾选。
下面为最重要的结果,可在撰写结论使用。
上一篇:论文检测系统paper
下一篇:spss论文数据处理