主成分分析毕业论文百度文库

2个回答默认排序

默认排序

按时间排序

小百合2011

已采纳

在社会调查中，对于同一个变量，研究者往往用多个不同的问题来测量一个人的意见。这些不同的问题构成了所谓的测度项，它们代表一个变量的不同方面。主成分分析法被用来对这些变量进行降维处理，使它们“浓缩”为一个变量，称为因子。在用主成分分析法进行因子求解时，我们最多可以得到与测度项个数一样多的因子。如果保留所有的因子，就起不到降维的目的了。但是我们知道因子的大小排列，我们可以对它们进行舍取。哪有那么多小的因子需要舍弃呢？在一般的行为研究中，我们常常用到的判断方法有两个：特征根大于1法与碎石坡法。因为因子中的信息可以用特征根来表示，所以我们有特征根大于1这个规则。如果一个因子的特征根大于1就保留，否则抛弃。这个规则，虽然简单易用，却只是一个经验法则(rule of thumb)，没有明确的统计检验。不幸的是，统计检验的方法在实际中并不比这个经验法则更有效(Gorsuch, 1983)。所以这个经验法则至今仍是最常用的法则。作为一个经验法则，它不总是正确的。它会高估或者低估实际的因子个数。它的适用范围是20-40个的测度项，每个理论因子对应3-5个测度项，并且样本量是大的 ( 3100)。碎石坡法是一种看图方法。如果我们以因子的次序为X轴、以特征根大小为Y轴，我们可以把特征根随因子的变化画在一个坐标上，因子特征根呈下降趋势。这个趋势线的头部快速下降，而尾部则变得平坦。从尾部开始逆向对尾部画一条回归线，远高于回归线的点代表主要的因子，回归线两旁的点代表次要因子。但是碎石坡法往往高估因子的个数。这种方法相对于第一种方法更不可靠，所以在实际研究中一般不用。抛弃小因子、保留大因子之后，降维的目的就达到了。在对社会调查数据进行分析时，除了把相关的问题综合成因子并保留大的因子，研究者往往还需要对因子与测度项之间的关系进行检验，以确保每一个主要的因子（主成分）对应于一组意义相关的测度项。为了更清楚的展现因子与测度项之间的关系，研究者需要进行因子旋转。常见的旋转方法是VARIMAX旋转。旋转之后，如果一个测度项与对应的因子的相关度很高（>)就被认为是可以接受的。如果一个测度项与一个不对应的因子的相关度过高（>），则是不可接受的，这样的测度项可能需要修改或淘汰。用主成分分析法得到因子，并用因子旋转分析测度项与因子关系的过程往往被称为探索性因子分析。在探索性因子分析被接受之后，研究者可以对这些因子之间的关系进行进一步测试，比如用结构方程分析来做假设检验。 1问题的提出主成分分析是一种降维的方法,便于分析问题,在诸多领域中都有广泛的应用。但有些教科书与论文使用主成分分析时,出现了一些错误与不足,不能解决实际问题。如一些多元统计分析的教材中,用协方差矩阵的主成分分析出现了如下错误与不足:①没有明确和判断该数据降维的条件是否成立。②主成分系数的平方和不为1。③没有明确和判断所用数据是否适合作单独的主成分分析。④选取的主成分对原始变量没有代表性。以下从相关性等理论与结果上依次解决上述问题,并给出相应建议。2数据在行为与心理研究中,常常要求分析某种身份的人的行为特征,如本例中的小学生的日常行为特征,从而根据这些特征引导小学生向更积极的行为态度发展。这里用文献[1]的数据见表1,其来自某课题组的调查结果。课题组对北方某小学480名5～6年级学生的日常行为进行调查,共调查了11项指标如下:S1～对老师提问的反应、S2～对班级事务的关心、S3～自习课上的表现、S4～对家庭作业的态度、S5～关心同学的程度、S6～对待劳动的态度、S7～学习上的特殊兴趣、S8～对待体育锻炼的态度、S9～在娱乐上的偏好、S10～解决问题的思考方式、S11～对未来的打算主成分分析法和层次分析法异同1.基于相关性分析的指标筛选原理两个指标之间的相关系数，反映了两个指标之间的相关性[1]。相关系数越大，两个指标反映的信息相关性就越高[1]。而为了使评价指标体系简洁有效，就需要避免指标反映信息重复[1]。通过计算同一准则层中各个评价指标之间的相关系数，删除相关系数较大的指标，避免了评价指标所反映的信息重复[2]。通过相关性分析，简化了指标体系，保证了指标体系的简洁有效[2]。2.基于主成分分析的指标筛选原理（1）因子载荷的原理通过对剩余多个指标进行主成分分析，得到每个指标的因子载荷。因子载荷的绝对值小于等于1，而绝对值越是趋向于1，指标对评价结果越重要[3]。（2）基于主成分分析的指标筛选原理因子载荷反映指标对评价结果的影响程度，因子载荷绝对值越大表示指标对评价结果越重要，越应该保留；反之，越应该删除。1通过对相关性分析筛选后的指标进行主成分分析，得到每个指标的因子载荷，从而删除因子载荷小的指标，保证筛选出重要的指标[2]。3.相关性分析和主成分分析相同点一是，基于相关性分析的指标筛选和基于主成分分析的指标筛选，均是在准则层内进行指标的筛选处理，准则层之间不进行筛选。这种做法的原因是，通过人为地划分不同准则层，反映评价事物不同层面的状况，避免误删反应信息不同的重要指标[2]。二是，基于相关性分析的指标筛选和基于主成分分析的指标筛选的思路，均是筛选出少量具有代表性的指标[2]。4.相关性分析和主成分分析不同点一是，两次筛选的目的不同：基于相关性分析的指标筛选的目的是删除反应信息冗余的评价指标。基于主成分分析的指标筛选的目的是删除对评价结果影响较小的评价指标[2]。二是，两次筛选的作用不同：基于相关性分析的指标筛选的作用是保证蹄选出的评价指标体系简洁明快。基于主成分分析的指标简选的目的是筛选出重要的指标[2]。[1]迟国泰，曹婷婷，张昆.基于相关主成分分析的人的全面发展评价指标体系的构建[J].系统工程理论与实践，2013，32（1）：112-119.[2]李鸿禧.基于相关主成分分析的港口物流评价研究[D].辽宁大连：大连理工大学，2013.[3]孙慧，刘媛媛，张娜娜.基于主成分分析的煤炭产业竞争力实证研究[J].资源与产业，2012，14（1）：145-149.

274 评论 2小时前发布

就叫小胖

你的邮箱发不进去，请换一个，这里发部分供你参考Principal component analysisPrincipal component analysis (PCA) is a mathematical procedure that uses an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of uncorrelated variables called principal components. The number of principal components is less than or equal to the number of original variables. This transformation is defined in such a way that the first principal component has as high a variance as possible (that is, accounts for as much of the variability in the data as possible), and each succeeding component in turn has the highest variance possible under the constraint that it be orthogonal to (uncorrelated with) the preceding components. Principal components are guaranteed to be independent only if the data set is jointly normally distributed. PCA is sensitive to the relative scaling of the original variables. Depending on the field of application, it is also named the discrete Karhunen–Loève transform (KLT), the Hotelling transform or proper orthogonal decomposition (POD).PCA was invented in 1901 by Karl Pearson.[1] Now it is mostly used as a tool in exploratory data analysis and for making predictive models. PCA can be done by eigenvalue decomposition of a data covariance matrix or singular value decomposition of a data matrix, usually after mean centering the data for each attribute. The results of a PCA are usually discussed in terms of component scores (the transformed variable values corresponding to a particular case in the data) and loadings (the weight by which each standarized original variable should be multiplied to get the component score) (Shaw, 2003).PCA is the simplest of the true eigenvector-based multivariate analyses. Often, its operation can be thought of as revealing the internal structure of the data in a way which best explains the variance in the data. If a multivariate dataset is visualised as a set of coordinates in a high-dimensional data space (1 axis per variable), PCA can supply the user with a lower-dimensional picture, a "shadow" of this object when viewed from its (in some sense) most informative viewpoint. This is done by using only the first few principal components so that the dimensionality of the transformed data is is closely related to factor analysis; indeed, some statistical packages (such as Stata) deliberately conflate the two techniques. True factor analysis makes different assumptions about the underlying structure and solves eigenvectors of a slightly different matrix.

317 评论 4小时前发布

主成分分析毕业论文百度文库

2个回答 默认排序 默认排序 按时间排序

相关问答

职称论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序