PLS的基本性质扩展与改进策略:以战略管理实证
作者:王希泉 周海炜 谢小韦
论文 关键词:偏最小二乘回归 管理 优势 劣势
论文摘要:偏最小二乘回归(pls)应用价值广泛,在战略管理研究中,尤其是以 企业 样本为主要分析单位时,偏最小二乘回归良好的数学性质,如交叉有效性原则、对样本量需求小和多重共线性的诊断等优势发挥的非常明显。同时偏最小二乘回归在组织与管理研究中也存在较明显的不足,针对不足运用一个战略管理领域企业实地调研的实例对偏最小二乘回归的劣势进行否证式的说明与论证。
偏最小二乘回归(以下简称pls)是一种先进的多元统计分析方法,主要应用于建立多因变量的统计关系。在回归分析中,当自变量与因变量的个数都很多,并且在自变量以及因变量之间都存在较严重的多重共线时,如果采取一般的多元回归方法,其分析的可靠性极低,而采取偏最小二乘(pls)回归分析的建模方法,可以很好的解决这个问题。
1.主成分回归和偏最小二乘回归法的基本思想:
主成分回归基本思想:观察n 个样本点,得到因变量y 和p 个自变量 关系,设自变量 = ( ) 间的相关数矩阵记为r。
主成分回归方法完全撇开因变量y ,单独考虑对自变量集合做主成分提取。其过程是:
1) 求r 的前m 个非零特征值 ,以及相应的特征向量 ;
2) 求m 个主成分:
偏最小二乘回归的基本思想: 首先在自变量集中提取第一潜因子 ( 是 的线性组合, 且尽可能多地提取原自变量集中的变异信息, 比如第一主成分);同时在因变量集中也提取第一潜因子 ,并要求 与 相关程度达最大。然后建立因变量y 与 的回归,如果回归方程已达到满意的精度, 则算法终止。否则继续第二轮潜在因子的提取, 直到能达到满的精度为止。若最终对自变量集提取 个潜因子 , 偏最小二乘回归将通过建立y与 的回归式, 然后表示为y 与原自变量的回归方程式[2]。
2.偏最小二乘回归法的基本性质与扩展
1.1偏最小二乘回归的基本性质
性质1 在 、 、 和 之间存在以下循环 计算 关系:
1.2偏最小二乘回归的扩展性质及推导
下面,对偏最小二乘回归的部分基本性质进行扩展,给出了详细的证明过程。
扩展性质1 解释变量空间的潜变量向量 (即成分)与其同阶的反应变量空间的残差向量 直交,即给定任意 ,均有
扩展性质2 解释变量空间的潜变量向量 与其同阶及以后的反应变量空间的残差向量 直交,即给定任意 ,且 不小于 ,均有
证明:由扩展性质1知, ,
当 时,有
扩展性质3 在第 步计算得到的回归系数向量 与其对应的轴 之间有
在相关 文献 的基础上,根据偏最小二乘回归基本理论,扩展了部分性质,并给出了详细的证明过程,性质表明,与其它常见的多元统计分析方法相比,显示出该方法的独特之处。
3 战略管理企业调研实例的检验:基于主成份回归与pls回归法的比较
本次调查历时6个月,调查方式以访问、e-mail、传真等方式进行,为保证问卷回收率访问调查被大量采用,共发出问卷200余份,回收146份,回收率为70.2%。大部分接受问卷企业对各项能力要素都比较看重。其中均值在5.5以上的二项要素:产品测试方面的专业水平、严格的质量管理,反映了大部分企业还是认同技术能力的高低对一个产品的最终影响。
\s
图 seq 图 \* arabic 1 企业能力各要素的现实表现直方图
通过聚类分析,将18个企业能力要素聚类为5大类。在此基础上运用sas9.0进行回归分析。
战略管理的实证研究一般运用传统的因果模型为主,例如主成份分析法,我们运用战略管理研究方面企业核心能力实地调研的真实数据,运用主成份法进行回归分析。由可以得出删去第三个主成分 (pcomit= 1)后的主成分回归方程 (其中obs为3的那一行)为y=1.56437 + 0. 11973 x1+ 0. 18803 x2+ 0. 20956 x3+0. 05397 x4+ 0. 10827 x5数据主成分回归的结果见图2。
这个主成分回归方程中回归系数的符号都是有意义的;各个回归系数的方差膨胀因子均小于1.1 (见中obs为2的那一行);主成分回归方程的均方根误差(rmse=1.08289)。
图 seq 图 \* arabic 2 基于主成份法分析战略管理实例的结果
介绍了pls回归建模方法对于算法中,给出了一个具体例子, 计算 出了,pls回归较好地克服了各指标间的多重共线性问题,通过此方法求得指数更准确、合理。最后,使用sas软件中的pls过程完成偏最小二乘回归分析,输出结果见图 2
图 seq 图 \* arabic 3 基于最小二乘回归法的江苏 企业 能力要素与企业自评满意度关系
上图的第一部分给出抽取潜在变量的个数及相应的用于度量拟合效果的预测残差平方和 (press)的均方根值, 并指出在l = 1 时预测残差平方和的均方根达最小。输出的第二部
分给出第一、二个潜在变量所解释的变差的百分数 (包括自变量和因变量两方面) ; 输出的第三部分给出所拟合的模型的信息。其中obs为2和3 的行给出自变量和因变量的均值和标准差; obs为6的行给出抽取二个潜在因子时的偏最小二乘估计,由估计值可以写出标准化回归方程为 (y和 x z 表示 y 和 x 的标准化变量)
y= 0. 11505 x1+ 0. 15942 x2+ 0.13036 x3+0. 11970 x4+ 0. 12946 x5
以上偏最小二乘回归方程中回归系数的符号都是有意义的。偏最小二乘回归的均方根误差(需根据原始变量方程算出)比普通最小二乘回归的均方根误差 ( rmse= 1.07560)有所增大, 但增加不多。且比主成分回归方程的均方根误差为1.08289也有所增大。
偏最小二乘回归对研究很多因变量及很多自变量的相依关系时更能显示其特点, 此例变量个数少, 故没能看出太多的优点。
由实例看出,对于这组数据的处理,主成分回归与偏最小二乘回归的计算结果相比,pls的计算结果更为可靠。且pls可处理小样本,30-100家企业数据的优势使pls在战略管理实证中的优势得以充分发挥。
4.偏最小二乘回归的改进策略及推导
在多元线性回归分析中,如果出现多重共线性的情况,用偏最小二乘回归分析解决这个问题有很大的优势.然而, 偏最小二乘回归也有它的弱点,比如,它对影响点是非稳健的,一个或几个影响点的存在,可以严重改变回归的结果.其次, 偏最小二乘回归的选成份的过程也存在缺点。
偏最小二乘回归的基本的原理是按降序和交叉有效性原则,顺次选择使 和 的协方差 尽量大的成分 。从前面提供的偏最小二乘回归的计算过程可以看到,对于一个数据集来讲,成分实际上就是解释矩阵 的列的线性组合,而回归就是建立在这些成分之上的。
在偏最小二乘回归中,提取成分 的基本思路是使协方差 最大。在很多情形下,这样提取的因子 可以保证对因变量的解释能力最强,同时对自变量集合又有最佳综合能力。
根据协方差的计算公式 ,最理想的情况是因为选出成份与因变量的相关系数(与响应变量具有较高的相关性)和方差(所选的成份既含有解释矩阵 中较多的信息)都最大而使协方差达到最大.在很多情况下,两者兼顾是可以做到的.但是,在某些情况下,尽管相关系数比较小,但由于方差非常大,还是能得到相当大的协方差. 相关系数比较小,回归的结果一般不会令人满意.这种情况下,不适宜直接使用偏最小二乘法.这一现象主要是由于解释矩阵中含有大量与响应变量无关的信息造成的.这些与相应变量无关的信息被提取成具有大方差和小相关系数的成份,从而使得入选成份虽然具有较大的协方差,但是仍然对响应变量缺乏解释能力.
为了说明这个问题,给出一个模拟的例子,具体如下:
考虑模型
由于前面提到的偏最小二乘的弱点,得到3个估计都接近于0。如果偏最小二乘是有效的,那么估计的 、 、 的3个系数应该是
我们提出了一种改进的偏最小二乘回归。针对这样的情况,提出的解决办法是用投影的办法把解释矩阵中与响应变量无关的成分扣除出去,经过这样处理的解释矩阵便不存在含有大量与响应变量无关的信息的问题,也就适合使用偏最小二乘法来处理。
具体的过程如下:
假定 为单位向量, ,能使 的方差达到最大的向量是矩阵 的最大特征值对应的特征向量。因此寻找那些具有大方差且与响应变量 线性无关的信息就等价于寻找矩阵 的具有较大特征值的标准特征向量,剩下所要做的就是将解释矩阵 投影到这些标准特征向量所张成的空间的正交补空间中去。投影后得到的矩阵就是扣除了那些与 无关的信息的解释矩阵,再对响应向量 做回归的时候就可以用偏最小二乘的方法。
参考 文献 :
[1]任若恩 王惠文. 多元统计数据分析-理论、方法、实例[m].北京: 国防 工业 出版社; 1997
[2]wu lou, z.j.r. .second-order approach to local influence[j]. .b. 1993, (55): 929-936.
[3]高惠璇. 两个多重相关变量组的统计分析[j]. 数理统计与管理. 2002, 3(2).
[4]王惠文. 偏最小二乘回归方法及其应用[m].北京: 国防工业出版社; 1999:67-84.
[5]高惠璇. 处理多元线性回归中自变量共线性的几种方法[j]. 数理统计与管理. 2000, 9(5).
上一篇:论简述统计数据质量