欢迎来到学术参考网
当前位置:发表论文>论文发表

因子分析聚类分析论文

发布时间:2023-12-08 18:19

因子分析聚类分析论文

童鞋你好!
这个估计需要自己搜索了!
网上基本很难找到免费给你服务的!
我在这里给你点搜索国际上常用的外文数据库:
----------------------------------------------------------
❶ISI web of knowledge Engineering Village2
❷Elsevier SDOL数据库 IEEE/IEE(IEL)
❸EBSCOhost RSC英国皇家化学学会
❹ACM美国计算机学会 ASCE美国土木工程师学会
❺Springer电子期刊 WorldSciNet电子期刊全文库
❻Nature周刊 NetLibrary电子图书
❼ProQuest学位论文全文数据库
❽国道外文专题数据库 CALIS西文期刊目次数据库
❾推荐使用ISI web of knowledge Engineering Village2
-----------------------------------------------------------
中文翻译得自己做了,实在不成就谷歌翻译。
弄完之后,自己阅读几遍弄顺了就成啦!
学校以及老师都不会看这个东西的!
外文翻译不是论文的主要内容!
所以,很容易过去的!
祝你好运!

spss统计分析课程论文范文

SPSS软件是“统计产品与服务解决方案”软件,是数据统计分析的一个重要的工具。下文是我为大家整理的关于spss统计分析论文的 范文 ,欢迎大家阅读参考!

统计分析软件SPSS的特点和应用分析

【摘要】通过文献资料法,介绍了统计分析软件SPSS的特点,并通过实例:用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析,对该软件的应用做了详细的介绍,旨在为学习SPSS软件的人们提供参考。

【关键词】统计分析软件;SPSS;独立样本;非参数检验

一、前言

统计分析软件SPSS是一款统计产品与服务解决方案的软件,其全称为“统计产品与服务解决方案(Statistical Product and Service Solutions)”。该软件是一款在统计中应用很广的统计分析软件,目前在各专业 毕业 论文经常可以看到它的身影,其应用范围广、方便快捷等特点吸引着众多的 爱好 者。本文通过对统计分析软件SPSS的功特点进行介绍,通过举例用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析,对该软件的操作用做了详细的介绍,为学习SPSS软件的人们提供参考。

二、SPSS软件的特点

(一)操作简便

SPSS软件的界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。

(二)编程方便

具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计 方法 的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。

(三)功能强大

具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。

(四)全面的数据接口

能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASCⅡ数据文件, Excel 的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt,word,PPT及html格式的文件。

(五)灵活的功能模块组合

SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。

(六)针对性强

SPSS针对初学者、熟练者及精通者都比较适用。并且现在很多群体只需要掌握简单的操作分析,大多青睐于SPSS,像薛薇的《基于SPSS的数据分析》一书也较适用于初学者。而那些熟练或精通者也较喜欢SPSS,因为他们可以通过编程来实现更强大的功能。

三、实例分析――两个独立样本的检验(Test for Two Independent Sample)

例题:为了调查甲、乙两地土壤对 种植 同一种西瓜有没有影响,从这两个产地分别随机抽取同种的8只和7只西瓜,称重后得重量(市斤)如下:

甲(斤):9.31、9.57、10.21、8.86、8.52、10.53、9.21、9.14

乙(斤):9.98、8.46、8.92、10.14、10.17、11.04、9.43

问:根据样本数据检验两地的土壤对种植西瓜在重量上是否有显著差异?

解:建立假设 H0:甲乙两地的西瓜重量没有显著差异;

H1:甲乙两地的西瓜重量有没有显著差异。

然后根据上面给出的数据建立数据文件,注意数据文件中有一个表示重量数据的变量和一个表示地区分组的变量。最后在数据编辑窗口进行检验。检验的具 体操 作过程如下:

第一步:单击Analyze Nonparametric Test 2 Independent Sample,打开Two-Independent-Sample对话框(见图1)。

第二步:选择检验的变量进入检验框中,选择分组变量进入Grouping Variable框中,单击Define Group键,打开Define Group对话框,将分组变量值分别键入两个框中,单击Continue返回主对话框(见图2):

第三步:在Test Type栏中,确定检验方法。

SPSS中提供了四种检验方式,几种检验方法侧重点不同,但都是先把两样本数据混合排序,再从不同的角度分析并检验两个独立总体的分布是否有显著的差异。有时这几种检验结果可能不一样,所以要结合数据的探索分析考察数据的分布状况作出结论。本文选择了常用的Mann-Whitney U曼―惠特尼检验和Kolmogorov-Smirnov Z K-S检验。

第四步:选择输出的结果形式及缺失值处理方式;

第五步:单击OK,得输出结果。

所以,以上两种检验结论是一致的。也就是说在两地种植的同一种西瓜地重量没有显著差异。

参考文献

[1]杜志渊.常用统计分析方法―SPSS应用[M].山东人民出版社,2011.

[2]刘宁元.运用SPSS对高职专业课程成绩进行相关分析[J].电脑与电信,2007(3).

[3]井海立.SPSS在数学试卷统计分析中的应用[J].科技信息(学术版),2006(10).

试谈SPSS软件在考试数据统计分析中的应用

摘要: SPSS软件是数据统计分析的一个重要的工具。本文作者利用SPSS软件对考试数据的相关性、检验假设进行了统计分析,介绍了使用SPSS进行统计分析的一般方法和步骤,文中的方法对考试研究人员具有一定的指导意义。

关键词: SPSS软件 考试数据 统计分析 操作步骤

1. 引言

一份好的试卷须有好的测量指标来表明它的优良程度,试题有难度和区分度指标,试卷有效度和信度指标,这些是评价考试最主要的测量指标,但是仅有这些指标不足以反映一份试卷的实际测量效果,考试研究人员希望从考生的试卷统计分析中获取更多的信息来评价一份试卷。在计算机未普及的年代,考试成绩统计主要依靠人工阅卷,考试数据无法电子化存储,对考试数据分析统计难以实现。随着计算机的普及和信息化的推广,各种分析数据的软件应运而生,这些软件中汇集了统计学和测量学的分析工具,使得应用电子信息技术分析统计考试成绩数据成为可能,这些统计信息可以为教研部门、考试行政部门进行行政决策等提供非常重要的帮助。在众多的统计分析软件当中,SPSS是应用最多、影响最广泛的分析工具之一。在本文中,我们以SPSS软件为工具,对 教育 招生考试成绩的数据进行统计分析,分析主要着重于考试数据的相关性、假设检验等几个方面。

2. SPSS分析软件简介

“SPSS统计分析软件”的英文名称为“Statistical Package for the Social Science”,中文名称为“社会科学统计软件包”,它是世界著名的统计分析软件之一,在自然科学、社会科学的各个领域均有非常广泛的应用。SPSS是一个组合式软件包,它集数据整理、分析于一身,主要功能包括数据管理、统计分析、图表分析、输出管理等,该软件的统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。

下面我们利用SPSS软件对考试数据的相关性、检验假设进行统计分析,介绍使用SPSS进行统计分析的一般方法和步骤。

3. 相关性分析

教育考试中,考试结果的信度,试题的区分度,每个题目得分与试卷总分的关系,以及题目之间的关系,等等,都是考试研究的重要内容,最主要的研究方法就是数据的相关性分析。在众多的教育考试数据的相关性分析方法中,Pearson相关系数法、Spearman相关系数法和Cronbach α信度系数法是比较常用的几种方法。

Pearson相关系数法计算公式:

式中x为第i个考生第j题的得分,y为第i个考生第k题的得分,为第j题的平均分,为第k题的平均分,n为测试样本量。该公式既可以计算两个连续变量之间的相关性,又可以计算一个双歧变量与一个连续变量之间的相关性。

Spearman相关系数法计算公式:

r=1-(2)

式中D为两个变量的秩序之差,n为样本容量。

Cronbach a信度系数法计算公式:

α= 1-(3)

式中n为试题数,s为第i题的标准差,s为总分的标准差。该公式实际上就是将考试中所有试题间相关系数的平均值(又称内部一致性)作为α信度系数。

对于给定的一组考生成绩数据,利用SPSS统计分析软件可以非常容易地定量分析考生某学科试卷总分和该学科某道题的相关性,以及各个题目之间的相关性。我们以Pearson相关系数分析为例,利用SPSS软件进行统计分析。

数据统计分析的对象是某省高考数学6道解答题的得分情况(不是整张试卷),数据源于该省的高考数据成绩。研究的目的是测量6道解答题每两个题目之间的相关性。

我们以SPSS 13.0版本的软件为例,介绍利用SPSS进行数据统计分析的步骤(以Pearson相关系数法为例):

(1)将考试数据导入SPSS软件,在SPSS数据窗口中,顺序点击【Analyze】→【Correlate】→【Bivariate...】,系统弹出变量相关系数设置对话框。

(2)在该对话框中,将待计算的变量从左侧的变量列表中导入到右侧的“Variables”变量列表中,在本例中导入t1、t2、t3、t4、t5、t6共6个变量(t1―t6是6道解答题的变量名称)。在“Correlation Coefficients”相关系数选项中,选取“Pearson”复选框。

(3)在该对话框的“Test of Significance”设置区域,可以点选“Two-tailed”选项或者“One-tailed”,我们采用系统默认值。

(4)对话框中的 其它 选项取软件系统的默认值,点击【OK】,开始相关系数计算,系统弹出新的窗体输出运算的结果。本次输出的情况如下:

上表的统计结果可用于题目之间相关性的分析。表中的大部分题目的相关系数都比较适中,但题目T4和题目T5之间的相关程度远高于其它几个题目,我们可以确信这两者之间一定存在着比其他题目之间更紧密的关系,这是我们通过分析获取的重要信息,该信息表明这两个题目之间的相关性高于其他几个题目之间的相关性,这在大规模考试中是不应该出现的,需要在以后的命题考试中加以改进。

Spearman相关系数分析方法和上述分析方法类似,只需要在上述SPSS操作的第二个骤中选取“Pearson”复选框,程序就会按Pearson相关系数法进行统计分析,如果同时选中“Spearman”和“Pearson”复选框,程序将会同时计算按两种分析方法统计分析的数据,并会以不同的图表进行显示,而Cronbach a信度系数法计算方法与上述方法略有不同,其操作步骤如下:

(1)在SPSS数据窗口中,顺序点击【Analyze】→【Scale】→【Reliability Analysis...】,系统弹出“Reliability Analysis”信度分析设置对话框。

(2)将待计算的变量从左列的变量列表中导入到右侧的“items”变量中,在左下列的“model”选择项的下拉列表中确保选中“Alpha”(信度系数),点击“Statistics”选择项可以进行更为详细的参数设置,我们采用系统的默认值即可。

(3)参数设置完毕之后,点击【OK】,软件开始相关系数计算并输出运算结果。

4. 选择题的选项分析

在目前的教育招生考试中选择题是一种较常见的题型,考试研究人员关注较多的是对选择题基本特征、测量功能及其优缺点的理论探讨[1][2],对选择题干扰项的设计及其施测后的实际效果关注甚少,事实上施测后对题目各选项的有效性作出判断可为评价试题质量提供重要参考依据。我们利用统计中χ检验假设,对试卷中常见的选择题选择项进行统计分析。

教育考试的单项选择项一般设置为4个,其中仅有1个选择项是正确的。命题人员在设计选择项时,应当也必然对每道题目所有的选择项(正确选择项和干扰选择项)的考生作答情况作出预测,对考生作答的分布情况作出预估。考试结束后,研究人员应该对实测的情况与命题教师预测的情况进行对比分析,以检验考试效果是否达到了预测的目标。这和χ拟合度检验的思想具有一致性,因此可以尝试使用χ检验假设进行分析。

我们依据文献[3][4]的方法来介绍χ检验假设在考试数据分析中应用的基本原理,设变量E是命题者对某道试题的期望值,E=nP,n为样本容量,P为期望的相对频率,引入以下统计量:∑(O-E)/E,其中O为观察频数。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

我们需要进行的假设检验是:零假设H:选项的实测分布与期望分布相同;非零假设H:选项的实测分布与期望分布不同。

检验假设的思想:拟合度检验的统计量在确定的某种显著性水平下如果零假设是真,则检验统计量∑(O-E)/E呈近似χ分布,其自由度为研究变量的可能值减1;如果实测分布与期望的分布相当吻合,就不排除零假设,否则就排除零假设;最后对检验假设的结果进行解释。

数据分析的目的是判断考生实际的应答结果(实测数据)与命题期望的选择概率(期望数据)是否一致。我们随机抽取某省5542个高考考生的数学有效数据构成分析样本,利用SPSS进行统计分析。

SPSS数据统计分析的步骤如下:

(1)将考试数据导入SPSS软件,依次点击【Analyze】→【Nonparametric Tests】→【Chi-Square...】,弹出“Chi-Square Tests”对话框。

(2)将变量列表中待分析的题目序号导入到“Test Variables List”(检验变量列表)中,本例中题目的序号为t7。

(3)将对选择试题的每个选项的期望值依次输入到“Expected Values”所属的方框,具体操作方法是选中单选框“Values”,输入具体的期望数值,点击“Add”按钮,依次重复上述的步骤直至所有的选项的期望值输入完毕。

(4)点击【OK】,输出软件运算结果。

我们需要进行的假设检验,H:选项的实测分布与期望分布相同;H:选项的实测分布与期望分布不同。

假设检验的显著性水平为α=0.05,χ=∑(O-E)/E,自由度为df=4-1=3,查χ分布表或利用相关软件可得P=0.0626,由于P>α,因此不能拒绝零假设,即选项的实测分布与期望分布相同。因此,检验结果在0.05显著性水平时,没有足够的证据拒绝零假设,即可认为本题选项的实测分布与期望分布相同,也就是说本题的实际测试效果与命题教师预测的效果是一致的,命题教师准确地估计了考生的实际水平,这是分析获得的很重要的结论。

5. 结语

SPSS软件在考试数据统计分析中应用广泛,但大部分是集中在试题难度、均值、方差统计、考试数据的图表显示等几个方面,本文从一个新的角度利用SPSS软件对考试数据的相关性、检验假设等几个方面进行了尝试性统计分析,介绍了使用SPSS进行统计分析的一般方法和步骤。从上述分析来看,软件操作步骤和统计分析过程十分简单、快捷,对于测量学和统计学基础不太好的数据分析统计人员来说,只要遵循一定的操作步骤,就可以进行分析。

参考文献:

[1]王孝玲.教育测量(修订版)[M].上海:华东师范大学出版社,2006.

[2]雷新勇.大规模教育考试:命题与评价[M].上海:华东师范大学出版社,2006.

[3]李伟明,冯伯麟,余仁胜.考试的统计分析方法[M].北京:高等教育出版社,1990.

[4]雷新勇.考试数据的统计分析和解释[M].上海:华东师范大学出版社,2007.

猜你喜欢:

1. 统计学数据分析论文

2. spss统计分析实习心得

3. 统计学学年论文

4. 统计学分析论文

因子分析后如何进行聚类分析?

一、案例说明

1.案例背景

研究短视频平台用户行为的分类情况,调查搜集了200份数据其中20项可分为品牌活动,品牌代言人,社会责任感,品牌赞助和购买意愿品牌五个维度。案例数据中还包括基本个体特征比如性别、年龄,学历,月收入等。以及短视频平台观看情况和消费情况。数据样本为200个。

2.分析目的

想要根据短视频平台调查的数据进行聚类分析,由于分析项过多,所以先进行因子分析,将得到的因子得分进行聚类分析后进行命名,以及和其他基本个体特征比如性别进行交叉分析最终得到结论。

二、SPSSAU操作

因为案例的预设维度为5所以将分析项拖拽到右侧分析框后,下拉选择因子个数为5并勾选因子得分。

三、因子分析结果

1.前提条件

KMO值与Bartlete球形检验

使用因子分析进行信息浓缩研究,首先分析研究数据是否适合进行因子分析,从上表可以看出:KMO值为0.929,大于0.6,满足因子分析的前提要求,意味着数据可用于因子分析研究。以及数据通过Bartlett 球形度检验( p <0.05),说明研究数据适合进行因子分析。接下来查看分析项是否需要调整。

2.因子与测量项之间的关系

因子分析进行因子浓缩时,通常会经历多个重复循环,删除不合理项,并且重复多次循环,最终得到合理结果。一般出现的情形我们分为两种,一种为“张冠李戴”,一种为“纠缠不清”,具体描述如下。

(1)“张冠李戴”

一般情况下,如果20项与5个因子之间的对应关系情况,与专业知识情况不符合,比如第一项本该属于第二个因子但是被划分到了第一个因子下面,此时则说明可能该项应该被删除处理,其出现了‘张冠李戴’现象。例如案例中的“购买意愿1”和“购买意愿4”。

(2)“纠缠不清”

除了“张冠李戴”现象,有时候会出现‘纠缠不清’现象,比如案例中的“品牌赞助4”可归属为因子2,同时也可归属到因子4,这种情况较为正常(称作‘纠缠不清’),需要结合实际情况处理即可,可将该项删除,也可不删除,这时,分析带有一定主观性。

Step1: 第一次分析

本例子中共20个分析项,此20个分析项共分为5个维度,因此在分析前可主动告诉SPSSAU,此20项是五个因子,否则SPSSAU会自动判断多少个因子(通常软件自动判断与实际情况有很大出入,所以建议主动设置因子个数)。如下图:

从上图中可以看出:

品牌活动1-4这4项,它们全部对应着因子1,因子载荷系数值均高于0.4,说明此4项应该同属于一个维度,即逻辑上品牌活动1-4这4项,并没有出现 “张冠李戴”现象。4个分析项值隶属于因子1一个维度也没有出现“纠缠不清”的情况。

品牌代言人1-4共4项,它们全部对应着因子1,但是品牌代言人3、品牌代言人4同时又属于因子3,属于“纠缠不清”,暂不处理。

“社会责任感1-4”共4项,此4项均对应着因子1或因子3,此3项并没有出现‘张冠李戴’问题,但是出现了“纠缠不清”。

“品牌赞助1-4”共4项,它们全部对应着因子2,“品牌赞助4”既对应因子2又对应因子4出现了“纠缠不清”,应该给予关注。

“购买意愿1-4”共四项,当他们对应因子4则“购买意愿1”出现“张冠李戴”若对应因子5则“购买意愿4”出现“张冠李戴”。

总结上述分析可知:“购买意愿1”或者“购买意愿4”这两项出现“张冠李戴”,应该首先将此两项中的一项删除;而其他出现“纠缠不清”现象的,暂时不处理(进行关注即可)。此次将“购买意愿1”进行删除后重新分析(将“购买意愿4”删除也是可以的,由研究者自己决定)。

Step2: 第二次分析

将“购买意愿1”这项删除后,进行第二次分析。结果如下:

从上图可知“品牌代言人3”、“品牌代言人4”出现‘张冠李戴’现象,应该删除,以及“品牌活动1-4”、“品牌代言人1-2”等出现‘纠缠不清’现象,暂不处理,但应该给予关注。总结可知:应该将“品牌代言人3”、“品牌代言人4”先删除后再次进行第3次分析。

Step3: 第三次分析

将“品牌代言人3”、“品牌代言人4”删除后再次分析结果如下:

从上图可知“品牌代言人1-2”可同时出现在因子1和因子5下面,但考虑到因子5当前仅余下2项,因而表示可以接受,以及“社会责任感1-4”是一样的,最终找出五个因子,它们分别与项之间的对应关系良好。因子分析结束。

3.调整因子后的结果

(1)KMO 和 Bartlett 的检验

使用因子分析进行信息浓缩研究,首先分析研究数据是否适合进行因子分析,从上表可以看出:KMO值为0.915,大于0.6,满足因子分析的前提要求,意味着数据可用于因子分析研究。以及数据通过Bartlett 球形度检验(p<0.05),说明研究数据适合进行因子分析。

(2)因子载荷系数表

从上图可知“品牌代言人1-2”可同时出现在因子1和因子5下面,但考虑到因子5当前仅余下2项,因而表示可以接受,以及“社会责任感1-4”是一样的,最终找出五个因子,它们分别与项之间的对应关系良好。分析项不需要进一步调整,接下来进行查看因子的提取个数以及信息浓缩情况。

4.因子提取

(1)方差解释率

方差解释率 可以说明因子包含原数据信息的多少,方差解释率越大说明因子包含的信息越多。因子分析中,主要关注旋转后的数据部分。由上图可以显示17个指标中,五个因子方差解释率分别为26.400%、21.703%、19.013%、15.359%以及7.087%,累积方差解释率由五项相加为89.563%,累积方差解释率这个值没有固定标准,一般超过60%都可以接受。特征根对于因子的提取有什么作用,以下展开来说。

(2)特征根

特征根 一般是指标旋转前每个因子的贡献程度。此值的总和与项目数匹配,此值越大,代表因子贡献越大。当然因子分析通常需要综合自己的专业知识综合判断,即使是特征根值小于1,也一样可以提取因子。在进行因子分析时,研究者没有预设因子数,系统就会以特征根“大于1”为标准进行划分。因为此案例在分析前的预设因子个数为4所以也同样可以进行分析。除了特征根之外SPSSAU还提供了更加直观的碎石图帮助判断。

(3)碎石图

从图中可以看出,横轴表示指标数,纵轴表示特征根值,当提取前5个因子时,特征根值变化较明显,对解释原有变量的贡献较大;当提取5个以后的因子时,特征根变化也相对平稳,对原有变量贡献相对较小,由此可见提取前5个因子对原变量有的显著作用。碎石图仅辅助决策因子个数,如果由此图分析三个因子也是可以的。

此案例按专业知识来看提取5个因子,如果没有预设因子个数也可以默认让系统进行决策。提取后要观察因子的信息浓缩程度。

5.信息浓缩

旋转后因子载荷系数表

旋转后因子载荷系数 可以用于判断因子与题项之间的对应关系,如果出现“张冠李戴”或者“纠缠不清”的情况需要关注,上述结果已经是处理后的结果,以及各个题项的共同度。如果某分析项对应的多个因子载荷系数绝对值均低于0.4,可考虑删除该项。上图分析中均大于0.4。所以不用删除调整。

从结果中可以看出,使用因子分析对14个项进行浓缩处理,浓缩为四个因子。因子与题项对应关系如下:

其中品牌活动1-4在因子1上有较高的载荷,说明因子1可以解释这几个分析项,它们主要反映了短视频平台进行品牌传播中的品牌活动;品牌赞助1-4在因子2上有较高的载荷,它们主要反映了短视频平台进行品牌传播中的品牌赞助活动;社会责任感1-4在因子3上有较高的载荷,它们主要反映了短视频平台进行品牌传播的社会责任等;购买意愿2-4在因子4上有较高的载荷,它们主要反映了短视频平台某品牌用户的购买意愿,品牌代言人1-2在因子5上有较高的载荷,它们主要反映了短视频平台某品牌用的代言人受众情况。

从上表可知:所有研究项对应的共同度值均高于0.4,意味着研究项和因子之间有着较强的关联性,因子可以有效的提取出信息。因为本篇案例是想得到 因子得分后进行聚类分析 进行命名得到有效结论用于公司决策。所以对于因子分析权重方面不进行赘述,如想了解,可以点击文末链接进行查看。

6.因子得分

因子分析往往是预处理步骤,后续还需要结合具体研究目的进行分析,如回归分析、聚类分析等。此时,可能需要用到因子得分,返回分析页面勾选[因子得分]即可生成因子得分。因为本篇案例的研究目的是利用因子得分进行聚类分析,所以需要勾选[因子得分],以及对因子得分进行命名。

5个维度命名分别为品牌活动、品牌赞助、社会责任感、购买意愿以及品牌代言人如下:

接下来利用因子得分进行聚类分析,聚类分析将从,聚类基本情况,方差分析,聚类效果的图示化以及聚类命名来说明。

四、聚类分析结果

首先要查看数据分布是否均匀,一般来说,每个类别的样本比例应分布均匀,如果出现某一类占比过大或过小,可以考虑重新设置聚类类别个数。

1.聚类基本情况

使用聚类分析对样本进行分类,使用Kmeans聚类分析方法,从上表可以看出:最终聚类得到3类群体,此3类群体的占比分别是42.50%, 14.50%, 43.00%。整体来看,3类人群分布较为均匀,整体说明聚类效果较好。

2.方差分析

聚类类别与聚类分析项进行交叉分析,如果呈现出显著性(p<0.05),意味着聚类得到的不同类别样本,在相同指标上有明显的差异。这说明参与聚类分析的5个变量能够很好的区分类别,类间差异足够大,其中p值越小说明明类别之间的差异越大。

对不同类别进行均值比较除了可以查看方差分析还可以进行查看 聚类项重要性对比。

如果某个指标重要性较低,考虑移出该指标。从上述结果看,所有研究项均呈现出显著性,说明不同类别之间的特征有明显的区别,聚类的效果较好。

3.聚类效果的图示化

可通过散点图直观展示聚类效果,使用任意两个聚类指标进行散点图绘制(可视化模块里面的散点图),并且在‘颜色区分(定类)[可选]框中放入‘聚类类别’项,以查看不同类别时,两两指标的散点效果。

从图中可以发现各个类别之间有明显的区别,聚类的效果较好。其中发现第一个类别品牌活动与品牌代言人都比较大,建议研究时可以更加关注。

4.聚类类别命名

研究者也可以观察折线图趋势进行命名。参考如下:

通过上图可知,第一类人群在每个指标上的得分都比较高,可以命名为旅“品牌发烧友”。第二类人群在社会责任感、购买意愿得分较高,品牌代言人、品牌赞助得分较低,品牌活动介于二者之间,可命名为“品牌从众友”。第三类各项得分都较低,命名为“品牌冷淡者”。

将三类命名:SPSSAU‘数据处理’- ‘数据标签’。

5.聚类后的差异分析

得到聚类类别之后,接着需要对比不同类别群体的差异性;如在“性别”、“年龄”上的差异性。最常见与个人信息情况做交叉分析,可以得到不同类型的人群分布情况便于结合不同群体提出针对性的建议措施。本次案例将聚类类别与“年龄”进行交叉分析,如下进行阐述。

从上表可知,利用卡方检验(交叉分析)去研究年龄对于聚类类别共1项的差异关系,从上表可以看出:不同年龄样本对于聚类类别共1项呈现出显著性(p<0.05),意味着不同年龄样本对于聚类类别共1项均呈现出差异性,具体建议可结合括号内百分比进行差异对比。

年龄对于聚类类别呈现出0.05水平显著性(chi=14.335, p=0.026<0.05),通过百分比对比差异可知,26-30岁选择品牌发烧友的比例49.21%,会明显高于平均水平42.50%。20-25岁选择品牌从众者的比例26.23%,会明显高于平均水平14.50%。36-40岁选择品牌冷淡者的比例53.33%,会明显高于平均水平43.00%。31-35岁选择品牌冷淡者的比例49.18%,会明显高于平均水平43.00%。可以根据数据结果进一步决策。也可以和“性别”、“学历”等进行交叉分析。这里不进行过多描述。

五、其它

1.聚类中心

整体说明聚类效果较好

上表为经过迭代后类中心的变化,数据是经过标准化后的,至于数据是否需要标准化,聚类算法是根据距离进行判断类别,因此一般需要在聚类之前进行标准化处理,SPSSAU 默认 是选中进行标准化处理。数据标准化之后,数据的相对大小意义还在(比如数字越大GDP越高),但是实际意义消失了。



对于聚类中心的 SSE 指标说明如下:

在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值,该值可用于测量各点与中心点的距离情况,理论上是希望越小越好,而且如果同样的数据,聚类类别越多则SSE值会越小(但聚类类别过多则不便于分析)。SSE指标可用于辅助判断聚类类别个数,建议在不同聚类类别数量情况下记录下SSE值,然后分析SSE值的减少幅度情况,如果发现比如从2个聚类到3个6类别时SSE值减少幅度明显很大,那么此时选择3个聚类类别较好。比如该案例若聚类数为2,此时SSE值为872.226,但是当聚类数为3时此时SSE值为779.077,发现SSE减少幅度较大。所以可以看出选择3个聚类类别较好。

六、总结

本篇案例结合了线性回归与聚类分析,由于分析项过多,先进行因子分析,通过因子分析发现存在“张冠李戴”的情况,需要调整因子,调整因子后分析因子提取、信息浓缩情况,并且得到因子得分,进一步进行聚类分析,发现初步结果较好,将结果进行图示化展示,可以看出各个类别之间有明显的区别,将类别命名后,进行交叉分析,发现类别与年龄之间存在差异,并且具体描述,对公司或者平台对后续决策中提供有效结论。

因子分析和聚类分析的区别和联系

因子分析和聚类分析,很多时候容易混淆。接下来讲讲二者的区别和联系

因子分析和聚类分析的联系在于:

上一篇:聚类分析论文城市收入

下一篇:聚类分析论文研究方向