基于支持向量回归与地统计学的农民收入预测
农民收入既受其自身动态时序特性的影响,又与国家政策、农产品产量、天气等多种人为因素和自然因素关系密切,是一种典型的多维时间序列数据。该研究以国民总收入、乡村人口等11个可能与农民收入相关的影响因子为自变量,农村居民家庭平均每人纯收入为因变量,基于1982~2011年我国相关统计数据,采用支持向量回归与地统计学非线性时间序列预测模型对农民收入进行分析。结果表明:非线性时间序列预测模型大幅度提高了农民收入预测精度;农民的主要收入来源已不是粮食生产,而是向其他农业生产、进城务工等方面转移。
我国是一个农业大国,农业的发展、农民的生活状态影响着我国现代化建设的进程。农民收入是反映农业发展与农民生活状态的重要标志。随着我国现代化建设的飞速发展,农民收入水平也得到了大幅度的提升,2012年农村居民人均纯收入已经达到7 916元。农民收入数据是一种典型的多维时间序列,既受其自身动态时序特性的影响,又与国家政策、农产品产量、天气等多种人为因素和自然因素关系密切,具有明显的复杂非线性特性。分析农民收入的关键影响因素,为“三农”政策的制定等提供有效的指导,是大力发展农业、提高农民生活水平的根本,是实现和谐社会主义与全面小康生活的关键[1]。
国内学者已有许多关于农民收入的研究。宋委倩通过统计分析认为影响诸城市农民收入的主要因素有地区经济发展水平、农产品价格和农业生产资料价格、农业产业结构和经营水平、二三产业发展水平、农村劳动力转移和农民自身素质技能[2]。卢立香认为农村物质资本投资、农户人力资本投资、产业结构变化和农村剩余劳动力转移是影响我国农民收入增长的最直接因素,并据此建立向量自回归模型,检验结果表明上述4个因素与农民收入之间均存在着显著的相关性 [3]。郑素芳等选取影响我国农民收入的农产品产量、农产品价格、人均播种面积等指标,运用计量模型从定量的角度对各种因素进行综合分析,得出提高农民收入的主要因素是农民的非农业收入和农产品价格[1]。王亚娜等运用逐步回归法,分析了影响农民收入的因素,结果表明,农村剩余劳动力的转移和农民的受教育水平对农民人均纯收入的影响最显著[4]。郭庆春采用BP神经网络对农民收入进行建模分析,认为农民收入主要受乡村就业人员数、农村固定资产投资、农作物总播种面积的影响[5]。
但已有研究主要是利用线性模型进行分析,未充分考虑农民收入数据的复杂非线性特性,得出的结论难免有失偏颇。因此,笔者拟针对农民收入数据非线性时间序列的特性,采用非线性支持向量机和地统计学方法综合分析我国农民收入的影响因素,并结合统计数据,预测我国农民收入。
1变量选取、数据来源与研究方法
从收集的大量影响因素中挑选出与农民收入密切相关的关键因子是农民收入水平预测的一个关键点与难点。目标变量拓阶是反映时间序列自身动态时序特性的有效手段,传统的带控制项的自回归滑动平均模型(Controlled Autoregressive Integrating Moving Average,CARMA)和带受控项的自回归模型(Controlled Autoregressive,CA)等多维时间序列分析方法都属于线性模型[6-8],通过线性方法逐步比较实现拓阶过程,费时耗力,不能有效地反映数据的非线性特征。人工神经网络(Artificial Neural Networks,ANN)模型具有非常优异的非线性逼近能力,但存在易陷入局部最小、过学习等缺陷[9-10]。支持向量机(Support Vector Machine,SVM)基于统计学习理论,具有非线性优点[11-12],并且能有效防止过学习,在众多领域取得了较好的应用效果。且基于地统计学 [13-14](Geostatistics,GS)采用直接拓阶方法,以一维GS的变程作为时间序列的后效时间长度(动态时序性),具有速度快、全局最优的优点。笔者拟结合SVM,以模型交叉测试均方根误差(Root Mean Squared Error,RMSE)最小为标准,采用非线性汰选方法对所选全部因子实施多轮评估,逐个剔除次要因子,确定关键因子。
1.1变量选取和数据来源近年来我国积极转变农业发展方式、发展现代农业、统筹城乡发展和推进农业建设,影响农民收入的因素日益复杂。预测农民收入,采用不同方法所考虑的因素各不相同。如宋委倩选取农产品价格和农业生产资料价格等进行统计分析[2],卢立香选取农村固定资产投资、农村人口数和产业结构等因素进行回归分析[3],王亚娜等选取人均农业基本建设投资、人均农业各税税费、人均农业贷款额、人均农业年财政支农额等7个指标建立农民收入影响因素计量模型[4]。
结合已有文献,参照郭庆春等的研究[5],该研究选取国民总收入(x1)、乡村人口(x2)、农村农户固定资产投资额(x3)、乡村从业人员(x4)、农林牧渔业总产值(x5)、农业机械总动力(x6)、有效灌溉面积(x7)、农用化肥施用折纯量(x8)、农作物总播种面积(x9)、粮食产量(x10)、受灾面积(x11)等11个可能与农民收入相关的影响因子,然后从中筛选真正影响农民收入的主要因子。各因子说明如下:国民总收入包含了农民收入,农民收入对国民总收入有一定程度的影响;乡村人口以农民为主,是考虑农民收入问题的基数;农村农户固定资产投资额是指在农村建造和购置固定资产的经济活动,一定程度上反映了农民收入的高低;乡村从业人员是指乡村人口中16岁以上实际参加生产经营活动并取得实物或货币收人的人员,是农民收入获取的重要部分;农林牧渔业总产值是传统农业构成农民收入的重要部分;农业机械总动力代表着农业机械化程度,是现代农业发展的代表,关系着农业生产效率,也关系着农民收入的高低;有效灌溉面积是灌溉工程或设备已经配备,能够进行正常灌溉的水田和水浇地面积之和,是现代农业发展的重要指标;农用化肥施用折纯量指实际用于农业生产的化肥数,与农业生产息息相关;农作物总播种面积直接关系着农作物的产量,与农民收入应该为正相关;粮食产量带来的收入,在现在依然是农民收入的主体部分;受灾面积也直接关系着农作物的产量,与农民收入负相关。
因为农村农户固定资产投资额等部分数据自1982年才有系统的统计,所以该研究选用1982~2011年的数据建模,数据来源于国家统计局网站。
1.2研究方法
1.2.1数据平稳化处理。农民收入数据呈明显上升趋势,因此宜在数据建模之前以对数线性去趋势(Loglinear Detrending,LLD)平稳化法对30年的目标变量进行平稳化处理[15]。
首先是对目标变量取对数,并进行先行拟合:
可得对数线性去趋势平稳化后的新目标变量,后续建模都基于平稳化后的新目标变量展开。
1.2.2基于GS的目标变量拓阶。对于在空间分布上既有结构性又有随机性的自然现象,可以通过GS分析其结构性,计算数据的半变异函数值,并给出其区域化变化趋势[13-14]。对某一观察数据f(xi),其半变异函数值r(h)可由下式计算:
式中,h代表两个样本之间的间隔距离;f(xi)与f(xi+h)分别表示样本xi和样本xi+h的真实观察值;N(h) 表示间隔距离为h时的所有样本对数。
若以间隔距离h为横轴,r(h)值为纵轴作图,r(h)随着h的增大逐步增大,当r(h)趋向于稳定时对应的间隔距离h被定义为变程a。变程 a代表当数据间隔距离达到a后,该数据之间的空间相关性消失。该研究基于地统计学(GS)对一维时间序列进行分析,以变程a来反映时间序列的后效时间长度,设定间隔大于变程a的两年之间不存在相关性,以变程a作为拓阶次数。
初始多维时间序列经平稳化处理后,变为(yt,xtj),t=1,2,…,30; j=1,2,…,11。首先对一维时间序列y求半变异函数,时间间隔h以一年为分隔(取值为1~15),确定该一维时间序列的后效时间长度a。根据GS原理,对目标变量y拓a阶。拓阶后的数据样本数变为(30-a);自变量个数为(11+a)。
1.2.3基于SVM的非线性变量汰选。采用LIBSVM平台对模型拓阶[16],若数据包含N个样本,P个自变量,基于SVM训练精度RMSE最小原则可对全部P个变量实施非线性筛选,去除无用、冗余的变量,选出影响农民收入的关键因子。具体过程如下:
第一步,以全部P个自变量构建SVM模型,并获得交叉测试精度RMSEall。
第二步,依次剔除第i个自变量,重新构建SVM模型,得到交叉测试精度RMSE-i。
第三步,如果min[RMSE-i] 第四步,重复第一至三步骤(此时自变量变为P-1),直到没有自变量可筛选为止,最终的保留变量即为关键因子,用于一步预测建模。
1.2.4评价指标与参比模型。通过模型评价,可以验证预测模型的有效性以及筛选因子的可信性。多数模型验证方法采用拟合结果作为评价标准,但对时间序列模型而言,应该以其实际预测性能进行评价,而非回代拟合。
预测结果评价指标采用均方根误差:
为对比新模型的有效性,笔者另设置了3个参比模型:①SVM模型,直接以初始数据构建SVM一步预测模型,目标变量不进行平稳化,不进行拓阶,也不实施自变量筛选;②SVMLLD模型,以平稳化后的数据构建SVM模型,既不进行拓阶也不实施自变量筛选;③SVMGS模型,对平稳化后的目标变量以GS进行快速拓阶,但不进行自变量筛选。
2结果与分析
笔者首先对平稳化后的目标变量进行GS分析,以一年为间隔作为h,其半变异函数图见图1。
由表1可知,SVM模型以初始数据构建一步预测模型,没有考虑其自身时序动态特性,也没有对初始自变量进行筛选,对带有明显上升趋势目标变量也未进行平稳化处理,其预测精度最差,平均预测差异超过1 000元;与SVM模型相比,SVMLLD模型对初始目标变量进行了平稳化处理,其一步预测精度得到了大幅度提高,平均预测差异缩小到482元水平。显然对于农民收入水平这类带有明显趋势的时间序列数据,进行平稳化处理能有效提高其预测精度。SVMGS模型对平稳化后的目标变量进行拓阶处理,考虑了目标变量自身的时序动态,相比SVM模型与SVMLLD模型,其一步预测结果有了明显提高,预测误差下降到400元以下。
SVMGSfilter模型在SVM模型基础上对自变量进行筛选,去除部分冗余自变量,保留了乡村人口(x2)、农村农户固定投资额(x3)、乡村从业人员(x4)、农林牧渔业总产值(x5)等4个变量,拓阶所得最近5年的农村居民家庭平均每人纯收入(x1′~x5′)9个重要因子,进一步简化模型。基于该9个重要因子,以1982~2006年数据构建SVM一步预测模型,预测2007~2011年农民收入,平均预测误差仅为 304.78元,相比其他模型,预测精度有了明显提高。
乡村人口、农村农户固定投资额、乡村从业人员、农林牧渔业总产值等4个重要指标,其变化趋势与农村民收入趋势见图2。图中所用数据均经过平稳化处理。
3结论与启示
上述研究结合SVM与GS,针对农民收入水平发展了一种高精度的非线性时间序列预测SVMGSfilter模型,结果表明:SVMGSfilter模型非线性时间序列预测模型较参比模型大幅度提高了农民收入预测精度;农民的主要收入来源已不是粮食生产,而是向其他农业生产和进城务工等方面转移。
提高农民收入是实现全民小康的关键。从该研究结论可知,农民的收入结构主要分为粮食生产、农副产品、进城务工3大部分。政府提高农民收入需要从以上3个方面着手。首先,需要集中力量提高农村务农农民的收入水平。每年数千亿的农业补贴是政府对农业支持的手段之一,但补贴范围太广导致重点不突出、以价格补贴为主的补贴方式致使效果不明显。尤其是补贴范围过大,每公顷土地上的补贴仅1 500~3 000元,可谓杯水车薪。因为部分农民已进城务工放弃农业生产,如果能削减这部分补贴,集中到扎根土地的农民身上,其补贴效果可能会更加明显,对提高务农收入、提升农业的吸引力具有促进作用。第二,完善相关政策以解决农民工问题。进城务工已经是一部分农民收入的主要来源,但目前大部分地区针对农民工的政策还不完善,导致农民工进城难、收入低、缺乏保障。
作者:张弘杨 陈渊 袁哲明 来源:安徽农业科学 2014年30期
上一篇:教育统计学中存在的问题及教学改革
下一篇:统计学知识建构中的逻辑思维方法