论面板数据模型及其固定效应的模型分析
在20世纪80年代及以前,还只有很少的研究面板数据模型及其应用的文献,而20世纪80年代之后一直到现在,已经有大量的文献使用同时具有横截面和时间序列信息的面板数据来进行经验研究(Hsiao,2007)。同时,大量的面板数据计量经济学方法和技巧已经被开发了出来,并成为现在中级以上的计量经济学教科书的必备内容,面板数据计量经济学的理论研究也是现在理论计量经济学最热的领域之一。
面板数据同时包含了许多横截面在时间序列上的样本信息,不同于只有一个维度的纯粹横截面数据和时间序列数据,面板数据是同时有横截面和时序二维的。使用二维的面板数据相对于只使用横截面数据或时序数据,在理论上被认为有一些优点,其中一个重要的优点是面板数据被认为能够控制个体的异质性。在面板数据中,人们认为不同的横截面很可能具有异质性,这个异质性被认为是无法用已知的回归元观测的,同时异质性被假定为依横截面不同而不同,但在不同时点却是稳定的,因此可以用横截面虚拟变量来控制横截面的异质性,如果异质性是发生在不同时期的,那么则用时期虚拟变量来控制。而这些工作在只有横截面数据或时序数据时是无法完成的。
然而,实际上绝大多数时候我们并不关心这个异质性究竟是多少,我们关心的仍然是回归元参数的估计结果。使用面板数据做过实际研究的人可能会发现,使用的效应①不同,对回归元的估计结果经常有十分巨大的影响,在某个固定效应设定下回归系数为正显著,而另外一个效应则变为负显著,这种事情经常可以碰到,让人十分困惑。大多数的研究文献都将这种影响解释为控制了固定效应后的结果,因为不可观测的异质性(固定效应)很可能和回归元是相关的,在控制了这个效应后,由于变量之间的相关性,自然会对回归元的估计结果产生影响,因而使用的效应不同,估计的结果一般也就会有显著变化。
然而,这个被广泛接受的理论假说,本质上来讲是有问题的。我们认为,估计的效应不同,对应的自变量估计系数的含义也不同,而导致估计结果有显著变化的可能重要原因是由于面板数据是二维的数据,而在这两个不同维度上,以及将两个维度的信息放到一起时,样本信息所显现出来的自变量和因变量之间的相关关系可能是不同的。因此,我们这里提出另外一种异质性,即样本在不同维度上的相关关系是不同的,是异质的,这个异质性是发生在回归元的回归系数上,而不是截距项。我们试图从面板数据的横截面维度和时间序列维度的样本相关异质性角度来解释为什么使用的效应不同会使估计结果产生如此巨大的差异,而这很有可能正是由于异质性导致了在使用不同效应时,使估计的结果有显著的差异。
另外,所谓的不可观测的异质性(Unobserved Heterogeneity)在理论上被假定是无法用回归元观测的,同时,一般认为面板模型的固定效应与回归元可能是相关的,而且这个效应与回归元是否正交(相关)实际上也是判断应该使用固定效应还是随机效应的标准之一(Greene,2002;Mundlak,1978)。而所谓的不可观测的异质性,实际上至少并不是完全不可观测的,通过适当的模型设定,把固定效应再进行分解,就得到可观测的和真正不可观测的异质性,并且模型的估计将在国家效应和随机效应之间获得融合,在这点上,我们与Mundlak(1978)的结论是一致的。
面板模型的很多方法和解释通过教科书的广泛传播和人们的应用,已经形成了面板计量技术的使用者和研究者头脑中标准的理解,而这种已经在人们脑海中形成规范解释的东西则可能是较难以改变的,因此为了说明问题,我们在文中尽量使用直观的例子来进行解释,并对我们的想法给予简要而直接的证明,来加强论文的理论性。
一、横截面和时间序列,哪一个维度?一个有其他遗漏变量的例子
读者可能会对这个问题稍微感到奇隆,并回答面板数据由于是二维数据,那么其回归结果也应该同时来自于两个维度,这正是面板数据的长处,并且直觉上两个维度上的相关关系应该是一致的,这应该是个不言自明的问题。
这个回答表面上看似正确的,然而真实的答案却不是那么简单,面板数据的回归结果并不真的一定同时来自两个维度,关于哪个维度占主要的问题在面板数据的分析中是至关重要的,尤其当我们有横截面和时间序列的维度相关异质性问题时。
这里我们所说的异质性不同于传统的面板异质性。传统的面板异质性宣称异质性来自于依横截面和时点不同而变化的截距项,并通过横截面和时点的虚拟变量捕捉;而这个论点可能是武断的,异质性可能并不来自于截距项,而是来自于回归元的系数,尤其是在数据中经常有这样的现象,即自变量与因变量在横截面上的相关关系与时间序列上的相关关系是不同的②,这是我们所探讨的异质性,导致这种异质性的原因可能有很多,遗漏变量是一个可能的重要原因。另外自变量在不同维度上对因变量本身就具有不同的作用,这也是一种可能。图1为有其他变量遗漏的情况。
图1的面板数据样本具有4个截面,6个时期,数据由如下过程生成:
然而,如果是不可观测的,那么模型就会产生遗漏变量偏差。在实际面板数据模型的应用中,经常采用的步骤是先做混合回归,然后做横截面固定效应回归,然后做时间固定效应回归(或与横截面固定效应同时使用)。如果看图1,很可能研究者就会采用横截面固定效应或者双固定效应,而在上面的案例中,采用混合回归与横截面固定效应回归都会得到完全错误的结果,其中横截面固定效应的估计结果偏差最高,双固定效应的估计稍好,但是也经常产生有偏的结果,只有时期固定效应会产生最无偏有效的估计结果。
图2给出了使用各种效应得到的回归拟合线,每个回归的截距项已经取平均从而使得回归线落在样本点的中央,从图2中可以看到,不同的模型设定对估计系数产生明显的影响。很明显,只有时间固定效应得到了x与y的真实的相关关系,偏差最小;横截面固定效应则显示了x与y在时序上的相关关系,是偏差最大的估计;混合回归也基本显示了时序的信息;而双固定效应在这里凑巧也有较大的估计偏误,这是因为双固定效应的双向组内均值离差操作损失了许多有用的样本信息,并且在我们模拟中的一个相对大的干扰项方差也降低了估计的效率。
那么,为什么以上结果会发生呢?为了解决这个问题,我们需要探讨面板数据模型固定效应估计的本质。
1.横截
面和时间固定效应的本质
如果我们有一个截面个体的时间序列样本y和X,我们可以对y和X做回归得到截距项α和系数向量β,这反映了样本在时序上的相关关系,如果我们把每个截面都做回归,就得到一个方程系统:
从式(5)和式(6)中,很容易发现,拟合准则对于β和α的一阶条件产生了同样的估计条件,也即是横截面固定效应估计量的估计条件:
Xβ+Dα=y (7)
这个估计量即是有一个线性约束=β的每个截面个体的时间序列回归的估计量,同时我们知道这也是横截面固定效应的估计量。因此,我们有推论1:
推论1 横截面固定效应估计本质上是在做一个有线性约束的时间序列回归,约束则是每个横截面个体具有相同的回归系数。同样,容易证明,时间固定效应估计量本质上是在做一个有线性约束的横截面回归,约束则是每个时期的横截面回归具有相同的回归系数。而回忆固定效应的算法,我们知道,横截面固定效应(时期固定效应),或者说不可观测的异质性,实际上是约束每个横截面(每个时期)的误差项的均值为0的结果,因此,固定效应,或者说不可观测的异质性实际是估计的结果而不是原因。
2.每个横截面的和总的β的关系
给定横截面个体i,我们知道该横截面的时间序列回归的估计量包含在式(10)中:
可以看到,每个截面的时序回归实际上是把估计横截面固定效应的样本按横截面分成n份,或者反过来说横截面固定效应的估计实际上是把每一个截面的时序回归的样本放到一起形成一个大样本,那么,每个截面的回归系数与固定效应的回归系数β有什么样的关系呢?
我们通过假设只有一个回归元x来给出直接的例证,若只有一个x,则对于某截面i有:
如果现在有多于1个的回归元,并且回归元之间理论上是无关的,那么这时式(13)仍然成立,但如果回归元之间是相关的,问题就会复杂很多,不过如果使用偏回归方法,先排除其他变量的干扰,我们仍然可以得到类似的结论,我们自己所做的一些数值模拟和估计也显示了这点,细节不在这里补充。由以上的讨论,可得到推论2。
推论2 横截面固定效应估计本质上是在做一个有线性约束的时间序列回归,其估计结果等于对每一个横截面进行时序回归得到的系数的加权平均。同样的结论可以推广到时间固定效应的估计,即时间固定效应的估计结果等于每个时期横截面回归估计结果的加权平均。
现在我们知道图1和图2所示的例子中为什么使用混合效应,横截面固定效应会出现明显的偏误,而时期固定效应的结果则是正确的。因为和由于非平稳性导致在时序上两者是相关的,但是因为是随机生成的,并且和的生成过程是独立的,因此和在横截面维度上是不相关的。而使用混合回归不区分样本信息究竟来自哪个维度,它合并了时间序列和横截面二维的样本信息进行回归,因此导致的估计产生向上的偏误(因为被遗漏了),但混合回归的结果并不是偏误最严重的,因为至少在横截面方向上和是无关的;横截面固定效应估计则有最严重的偏误,因为如前所述,横截面固定效应是做一个有线性约束的时序回归,其结果等于每个截面的回归结果的加权平均,而这里和在时间序列上相关性明显,导致估计结果有很大偏误;只有时期固定效应产生了最准确的估计,因为时期固定效应做的是横截面方向的回归,而这里由于在横截面方向上和是无关的,因此即使缺失,也不会对的估计结果产生干扰,时期固定效应在以上我们所模拟的数据中是最好的估计量③。
上面的例子中所做的模拟数据是一个有着大T小N的数据集,而面板数据一般是有着大N小T的数据集,因此我们的模拟可能会由于其特定的T和N而受到质疑,而实际上,理论结果并不受到样本尺寸的明显影响。图3和图4展示了另一个有着相对大N和小T的模拟数据,其中N=6,T=3。
3.四个估计量之间的关系
前面我们说明了横截面固定效应和时间固定效应的本质,即横截面固定效应估计得到的更多是样本时间维上的相关关系,时间固定效应估计得到的更多是样本横截面维度上的相关关系;而混合效应的本质则十分容易理解,它不区分这两个维度,把所有样本当成一个维度来估计,合并了样本截面维和时间维上的信息;而双向固定效应的估计量我们知道为,下面我们要继续深入问下一个问题:混合效应、截面固定效应、时间固定效应和双向固定效应之间的关系是什么?同时,双向固定效应的本质又是什么?
由式(17),我们得到:
总之,我们有推论3。
推论3 混合效应、截面固定效应、时期固定效应以及双向固定效应的估计量有式(20)和式(21)所示的理论关系,双向固定效应估计量可以表示为其他三个估计量的(正定)矩阵加权平均形式,在只有一个自变量时,关系可简化为式(27),权重为相应估计量的自变量方差之比。
二、所谓的不可观测的异质性真的是不可观测的吗?另一个遗漏变量的例子
以上讨论的面板数据中横截面和时间序列的相关异质性是由于另外一个遗漏变量导致的,下面我们再看另外一个有着截面和时序异质的例子,见图5。
图5的虚线和实线与图1有着同样的含义,与图1不同的是,这里我们模拟的数据令x与y在截面维度上是正相关的(虚线),而在时间维度两者是负相关的(实线)。只看样本散点图,可能直接使用横截面固定效应和双向固定是合理的选择,然而,直接这样做仍然是有问题的。数据生成过程如下:
上面的数据生成过程导致了如图5所显示的横截面和时序相关异质的现象,我们还可以有其他类似数据生成过程来产生这种异质性,如式(32)⑦。
读者可能对我们的数据生成过程稍感疑惑,实际上,我们的数据生成过程有很强的经济学意义,体现了一种变量自身所有的横截面与时间序列上的效应不一致。下面用直观的例子讨论这种现象,尤其是式(30)和式(31)所示的数据生成过程出现的可能原因和经济含义。
1.相对性
2.集体行为(利益)与个体行为(利益)的不一致
3.自选择问题
自选择问题同样能够导致横截面和时序相关关系的不一致。有一个经典的关于自选择问题的案例,即医疗和健康的问题。去医院看病预期会提高人们的身体健康水平,而一个很自然的考察医院治疗效果的经验方法是比较去医院多的人与去医院少的人的健康水平,然而,如Angrist和Pischke(2008)所示,截面的比较反而表明去医院治疗意味
着更差的健康水平,这意味着医院的治疗使人们的健康水平降低么?当然不是。这个问题就有着自选择和反向因果的原因,去医院看病多的人可能本来就有着较差的身体素质,这导致即使接受治疗他们也会比其他的人身体差,所以在横截面上看,医院治疗与更差的身体状况相关,然而在时序方向上看,医院的治疗还是能够提高人们的身体状况的。如果能够较好的度量个体的本身内在的身体素质,那么我们可以预期式(32)中的为负,而为正。这里我们只拿自选择问题做一个简单的例子来说明可能横截面和时序的相关异质性,实际中处理自选择问题一般采用随机分配、固定效应或DID方法。
这时,时间固定效应才是需要的。同样的结论可以推广到截面固定效应和双向固定效应的情况。因此,我们有推论4:
推论4 在面板模型的估计中,在一般的模型设定下,所谓不可观测的异质性(固定效应)并不是完全不可观测的;固定效应与回归元之间的相关是因为模型设定的遗漏变量导致的本可观测的元素被假定为不可观测而被放到了固定效应中,使得与回归元相关,是遗漏变量导致的结果;我们认为在估计固定效应时正确的模型形式应如式(34)所示的形式,在时间固定效应时加入项估计,在截面固定效应时加入项估计,在双向固定时两者都加入,否则,模型就会有遗漏解释变量的问题,研究者会面临着损失重要的解释变量的危险。
前面我们只是在有一个解释变量的情况下做出了直觉的说明,下面以时间固定效应为例,我们给出推论4的一般情况下的证明。
传统的时间固定效应模型如下:
另外,上面的讨论是用时期固定效应的情况做出的,而同样的结论可以推广到横截面固定效应和双向固定效应的情况,这里不再补充。
三、结论
面板数据模型的研究和应用,最早可追溯到Kuh(1959)、Mundlak(1961)、Hock(1962)、Balestra和Nerlove(1966)、Wallace和Hussain(1969)等,他们发展了最早的面板模型组间估计、组内估计、GLS及ML估计等方法。其中,早在Kuh(1959)的论文中就已经用组间估计发现了横截面样本与时间序列样本可能存在的相关关系不一致的问题,Kuh将这个不一致性解释为时序样本反应了变量的短期关系,而截面样本反应的是均衡的长期关系。但在之后的研究中,横截面维度与时序维度的样本相关异质问题却一直被忽略了,经典的面板模型设定成为标准的形式,即暗含假设自变量与因变量在不同维度的相关关系是同质的。在Balestra和Nerlove(1966)、Wallace和Hussain(1969)之后,研究者们更多地关心面板的估计是应该用组内估计还是考虑协方差矩阵加权的GLS估计,是用固定效应估计还是随机效应估计。其中,Maddala(1971)已经注意到,固定效应估计量的使用导致模型消除了组间样本的信息,而如果组间样本的变异程度相对于样本总的变异程度很大的话,模型是不够恰当的,他损失了大量的样本信息,但Maddala的对策则是转向了随机效应的研究。而随机效应的问题是其效应的随机性假定常常是不成立的,其估计方法忽视了可能存在的效应与解释变量之间的相关导致结果可能有偏误。Mundlak(1978)则通过再将固定效应做辅助回归进行分解,得到了与本文推论4类似的结论,但是他忽视了这个表面的模型估计问题背后隐藏的横截面与时序的相关异质问题,而这是我们更关心的。
混合效应、横截面固定效应、时间固定效应以及双向固定效应,一步步地,几乎已经成为了使用面板数据模型的标准步骤。面板数据的使用者可能经常会碰到不同效应的使用对回归元的估计结果有很大的影响的情况,这经常被解释为是因为固定效应控制了所谓的不可观测的异质性,而这个固定效应可能是跟回归元相关的,这导致了使用的效应不同,估计结果就会有变化。实际上,严格来讲,我们认为这种解释是不准确的。我们在文中证明,横截面固定效应估计实际上做的是有线性约束的时间序列回归,其估计结果是用时序上的样本信息得出的,回归系数等于每个横截面的时间序列回归系数的加权平均,而时间固定效应估计实际上做的是有线性约束的横截面回归,回归的系数等于每个时点的横截面回归的系数的加权平均;而所谓的横截面固定效应(时期固定效应),或者说不可观测的异质性,实际上是约束每个横截面(每个时期)的误差项的均值为0的结果。而双向固定效应的估计量则是混合效应、截面固定效应和时间固定效应估计量的加权平均。
因此,在使用不同的效应时估计结果经常有很大变化的原因有可能是因为在面板数据中自变量与因变量之间的相关关系在横截面维度和时间维度有本身就有显著不同导致的,我们称这种现象为面板数据的横截面维度和时间维度的相关异质,在图1和图5里我们用模拟生成的数据清晰地显示了这种现象。基于此,我们认为,在使用面板数据时,研究者需要十分清楚自己要研究的变量之间的相关关系是存在于哪个维度上的,或者说在哪个维度方向上结果才是真实的,依据逻辑和经济的理论来判断需要使用什么样的模型(14),而不是依靠固定效应是否显著的统计检验。
进一步地,本文除探讨了因为其他变量的干扰导致的横截面和时间序列的相关异质性,还讨论了变量自身就可能存在的相关异质性,并解释了三种可能的原因,即相对性,集体行为与个体行为的不一致以及自选择问题。我们展示了经典的面板模型中所谓的不可观测的异质性,实际上可能并不是完全不可观测的,只不过是由于传统的面板模型设置把本来可以观测的部分假定为无法观测而放入了固定效应中造成的,即本来可观测的项被遗漏而进入时间固定效应,项被遗漏而进入截面固定效应,而我们所熟知的固定效应与回归元之间的相关性,其实是由这个问题导致的,是遗漏变量的结果,这部分结论与Mundlak(1978)基本是一致的。并且,除了遗漏和项导致固定效应与回归元之间的相关问题,(和)也不应该被遗弃,即使其加入对(-)或者说的估计没有影响,因为非常有价值的样本信息可能隐藏在其中,尤其当样本有我们所说的横截面和时序的相关异质性时。因此,我们建议研究者在做有时间固定效应的回归时,可以考虑加入项,如文中的式(35)所示,在做有截面固定效应的回归时,可以加入项(15),双向固定效应时侧两者都加入,来看看结果的差异,否则研究者在研究中可能会耐性遗漏重要的解释变量的危险。
注释:
①可以分为混合效
应、截面固定效应、时期固定效应和双向固定效应。
②这里所说的不同并不是面板模型中变系数模型所说的不同,而是横截面与时序上的不同,但是各个横截面(和时序)内部的系数仍然假定为是相同的。
③有学者以“由于我们的数据生成过程中x和z均为I(1)的过程,不可避免地陷入了时间序列上的伪回归问题”为由对我们提出质疑,这里我们想说明的是:我们知道自变量和因变量的非平稳性会导致时序上的伪回归问题,但注意x和z均为自变量而不是一个自变量一个因变量,没有拿x对z做回归;并且本文讨论的是为什么在样本非平稳和遗漏变量z的情况下,时间固定效应却能得到准确的估计,而其他效应,尤其是横截面固定效应和混合回归却得到完全错误的结果。这种回归元的设定是我们故意为之从而讨论这个问题,而不是违背基本的计量经济学的常识。进一步地,如果这里是一个独立的平稳过程,那么无论哪种效应设定理论上都不会对的估计结果产生明显影响(不管是否平稳),因为这时无论是在哪个维度,与都是无关的。
(12)Mundlak主要探讨了横截面固定效应时的情况,不过本质上与时间固定效应是一样的。
(13)针对其他任何类似于这样仅在不同时期有变化的变量也一样。
(14)举个例子,现在我们有各个省份的房价增长率y和解释变量x,如果我们研究的问题是房价增长率在时序上的波动,比如为什么现在的房价增长率比过去高了,这很明显是时序上的问题,因此使用横截面固定效应在逻辑上是更合理的选择;而如果我们研究的问题是房价增长率在地区间的差异,比如为什么北京、上海等省区市的房价增长率比别的省区市高,这明显是横截面上的比较问题,因此这里使用时期固定效应更有可能是合理的选择。