基于主成分分析的农民收入预测
摘 要:农民收入问题一直是社会关注的热点,本文利用主成分分析的方法通过SPASS软件对数据进行预处理,减少了输入变量,然后进行线性回归,提高了预测的效率和准确度,实例表明该方法是有效和可行的。
关键词:农民收入 主成分分析 收入预测
主成分分析是统计分析中常见方法,使用主成分分析可以进行数据的预处理,是一种降维、压缩数据的有效手段。农民的收入问题是当今社会的热点,因而对它的研究具有很强的现实意义。本文拟用主成分分析的方法探究农民收入问题,并建立数学模型进行预测。
1.主成分分析原理
主成分分析方法在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息一种方法,是一种降维处理技术。x1,x2,...,xP为原变量指标,新变量指标为z1,z2,...,zm(m≤p),则
z1,z2,...,zm分别称为原变量指标x1,x2,...,xP的第1,第2,...,第m主成分,在实际问题的分析中,常挑选前几个最大的主成分。
主成分析的数学特征:
找主成分就是确定原来变量Xj(j=1,2,...,p)在诸主成分zi(i=1,2,...,m)上的载荷lij(i=1,2,...,m;j=1,2,...,p)。它们分别是x1,x2,...,xP的相关矩阵的m个较大的特征值对应的特征向量。
2.基于主成分分析的农民收入预测
农民的收入虽然来源广泛,但归根结底来源于第一产业、第二产业和第三产业所创造的货币收入,并受这些产业货币收入增长率的制约。另外,国家在农业方面的支出及各种农业税收也应该是影响农民收入的重要因素。因此,我们选择第一产业产值(YAP)、第二产业产值(YIP)、第三产业产值(YSP)、国家财政用于农业的支出(AC)、国家的各项农业税收(AT)为解释变量。农村居民的收入(YFI)用农村居民家庭人均纯收入乘以乡村总人口得出,作为被解释变量。统计数据来源于来自《中国统计年鉴》1988年至2003年的数据。
2.1作主成分分析
利用SPSS软件对1988年至1999年的第一产业产值(YAP)、第二产业产值(YIP)、第三产业产值(YSP)、国家财政用于农业的支出(AC)、国家的各项农业税收(AT)等五个因素作主成分分析,计算相关系数矩阵(表略),根据相关矩阵计算出的特征值以及各主成份的贡献率和累计贡献率见表1。
表1 特征值和各成分对方差的贡献率和累计贡献率
根据表1,特征值分别是4.914、0.071、0.009、0.005、0.001,第一主成分的贡献率是98.270%,因此取一个主成分。
由主成份矩阵(表略)写出主成分和原变量的线性组合:
Z=0.202YAP+0.203YIP+0.203YSP+0.201AC+0.198AT
2.2线性回归
根据式(1)计算出1984年至1999年的Z值为自变量,YFI为因变量,利用SPSS软件作线性回归,判定系数R2(R Square)=0.995非常接近1,说明总体回归效果很好。
通过显著性检验,得常数项(Constant)与主成分项Z的t的显著性概率Sig均为0.000<0.05,故回归方程如下:
YFI=1274.379+1.027Z (2)
2.3预测及检验
根据式(1)和式(2),可以由YAP、YIP、YSP、AC、AT计算出YFI,即可由第一产业产值(YAP)、第二产业产值(YIP)、第三产业产值(YSP)、国家财政用于农业的支出(AC)、国家的各项农业税收(AT)预测农民收入(YFI)。我们以2000年至2003年的数据用作预测并检验上述模型的,结果见表2:
表2 预测结果表
年份 | 实际YFI | 预测YFI | 误差率(%) |
2000 | 18215.81 | 17817.66 | -2.18573 |
2001 | 18827.79 | 18952.45 | 0.662124 |
2002 | 19369.34 | 20284.62 | 4.7254 |
2003 | 20151.87 | 22329.55 | 10.80633 |
表2显示预测误差比较小,结果表明该模型可较好预测农民收入。
3.结束语
主成分分析在保留原有数据主要信息的前提下,去除数据间的相关性,减少噪音影响,降低数据维数。当用于回归建模时,还可解决多重共线性问题。本文利用主成分分析的方法对农民收入进行预测,实例表明该方法是有效和可行的。
参考文献:
[1] 孙文爽,陈兰祥.多元统计分析.高等教育出版社.1994.
[2] 王晓林.统计学[M].北京:经济科学出版社.2001.
[3] 丰海英,刘素仙.区域经济协调发展问题研究[J].经济研究,2005(2):69.
下一篇:浅析新型农村养老保险