• 回答数

    4

  • 浏览数

    233

Antares米罗
首页 > 学术期刊 > 中国工业企业数据库研究意义论文

4个回答 默认排序
  • 默认排序
  • 按时间排序

快乐糖糖K

已采纳

可以。我们介绍文献中在稳健性检验部分常用的一些应对方法。1.替换因变量周京奎 (2019) 在研究农业生产率和农村家庭的人力资本积累关系时发现随着农业生产率提高,农村家庭倾向于进行教育投资,进而提升了家庭人力资本积累。在本文中作者首先采用家庭教育支出和家庭学杂费支出来衡量教育投资。在随后的稳健性检验章节中,作者将被解释变量替换为家庭教育支出占当年家庭收入的比例,考察农业生产率对教育支出占比的影响,进一步验证了农业生产率对人力资本投资影响的稳健性。类似的文章可参考刘畅 (2017) 研究子女外出务工对农村父母身心健康的影响的文章,其中考虑到健康的多维性,采用了另外 6 个健康指标进行稳健性检验。谭远发 (2015) 研究父母政治资本如何影响子女工资溢价的影响时,考虑到实际工资与保留工资正相关,因此将正文中子女的实际工资替换为保留工资进行稳健性检验。李春涛 (2020) 研究金融科技发展对企业创新的影响时将企业的专利申请数量作为反映了企业的创新产出水平的衡量标准之一,随后作者进一步运用企业研发支出总额占销售收入的比例更替企业创新的度量指标进行稳健性检验。此外孟美侠 (2019) ;罗勇根 (2019) ;陈强远 (2019) ;顾夏铭 (2018) 等都采用了替换因变量的方法进行了检验。这里需要注意的一点是,除了替换因变量,学者有时还会对因变量进行一些修正,比如王雄元 (2019) 在检验国际贸易增加如何影响企业创新行为时考虑到未取自然对数的专利申请量数据为离散型变量,且其分布中存在大量 0 值,可能不符合正态分布的假定,因此采用泊松模型回归处理被解释变量非正态分布问题。2.替换自变量蔡晓慧 (2016) 在研究地方政府基础设施和企业技术创新关系时,正文部分讨论中使用的地方政府基础设施的数据来自于金戈 (2016) 估算的省级基础设施资本存量数据,而在稳健性检验中采用了地级市市辖区道路密度代表基础设施资本存量。因为道路交通是重要的基础设施,也是企业通过扩大市场规模取得规模经济的前提,道路交通的密度在一定程度上也反应了基础设施的基本存量。替换自变量的文章比比皆是,可参考 刘怡 (2017) ;李卫兵 (2019) ;董香书 (2012) ;周颖刚 (2019) ;申广军 (2017) ;孙传旺 (2019) ;顾夏铭 (2018) ;梁斌 (2020) ;于斌斌 (2015) ;刘启仁 (2020)。3.放宽因变量或自变量条件除了替换自变量与因变量外,学者有时还会对因变量或自变量的选择条件进行放宽,例如陈仕华 (2015) 在研究国企高管政治晋升对企业并购行为的影响时,对被解释变量的衡量主要是基于董事长或总经理是否调任政府部门职位来判定高管政治晋升,考虑到董事长或总经理升任集团层面的董事长或总经理,或者升任集团层面的党委或党组书记时,国企高管的行政级别也得到了提升,因此在稳健性检验部分借鉴王曾等 (2014) 的测量方法,将高管职位变更去向出现以下情况时均视为晋升:平级或者更高级别的政府部门职位、集团层面的董事长或总经理、集团层面的党委或党组书记。以此替代变量进行测试。上文中,我们介绍了稳健性检验的概念,目的以及常用的一个角度 (变量替换法) ,这篇文章我们将继续介绍稳健性检验的其他角度。从上篇推文可以看出,有些文章出现了不止一次,这说明,每一个稳健性检验的方法都是不是独立存在的,在一篇文章中学者可以根据自己的需要可以选择多个稳健性检验的方法,比如罗勇根 (2019) 在研究空气污染、人力资本流动与创新活力的关系一文中,一共采用了 8 种方法从多个维度来检验自己文章的稳健程度。我们需要注意的是,稳健性检验的意义在于我们需要保证,文章得出的结论不会根据现在使用的数据的变化而发生巨大的变化,比如当其他人使用了一份相似的数据,或者当本文数据的样本量发生不同时,你的结论依然成立,这才能保证结论的可靠性。4.加入遗漏变量除了前文所举的例子以外,梁斌 (2020) 在探讨失业保险金对失业者求职努力的影响时,将失业者在日志日搜寻工作的小时数作为因变量,失业者领取到的失业保险金作为自变量,并控制了个体特征变量以及家庭特征变量,加入了省份虚拟变量后,在稳健性检验部分提出,失业保险金对失业者来说是确定性的收入,因此本文预期厌恶风险的失业者 (risk-aversion) 更可能领取失业保险金,也更可能为了日后稳定的收入而积极寻求工作,因此又将风险这一变量纳入了考量。类似的加入更多控制变量的文章可以参考蔡晓慧 (2016) ;陈仕华 (2015) ;张龙鹏 (2016) ;李春涛 (2020)5.加入各类虚拟变量需要注意的是,加入遗漏变量有时不仅仅指加入更多的变量,也包括控制其他层面的固定效应,比如施炳展 (2020) 在研究互联网对制造业企业分工水平的影响时提到,在前文中作者只控制了年份固定效应和企业固定效应,虽然大多数企业并不会更换省份和行业,但是这种可能性是客观存在的,因此如果不加入省份和行业固定效应,有可能遗漏省份和行业层面不随时间改变的重要变量,从而使估计结果有偏和不一致。为了避免这一问题,作者在保留年份和企业固定效应的基础上,进一步加入了省份和行业固定效应。类似的文章可以参考柳光强 (2018) ;孙传旺 (2019) ;罗勇根 (2019)6.分样本回由于不同的样本对于所得的结果具有不同的敏感性,因为在稳健性检验时,也常常进行分样本回归,常见的分类方法用按照人口规模分类,按照地理位置分类,按照城乡分类,按照性别不同分类等等。比如,刘怡 (2017) 在研究婚姻匹配对代际流动性的影响时提出婚姻匹配是中国代际传递的重要机制,尤其是对女性而言,父代收入通过婚配市场作用于子代配偶的个人收入,形成代际传递,影响子代家庭收入。在稳健性检验中,作者根据子代的城乡分布,将子代样本划分为城镇和乡村样本,比较分析城镇和乡村地区的代际流动性及其婚姻匹配机制在代际传递中的影响,结果发现,城镇地区多依赖于婚姻匹配机制,而农村地区侧重于人力资本投资。类似的分样本回归方法,可以参考杨仁发 (2013) 研究产业集聚与地区工资差距之间的内在联系的文章;蔡晓慧 (2016) 研究地方政府基础设施和企业技术创新关系的文章;刘畅 (2017) 研究子女外出务工对农村父母身心健康的影响的文章;申广军 (2017) 研究减税对中国经济的影响文章等。当我们在所得的整个数据集范围内进行分析时,常常会发现改变不同的时间段,得到的结论可能会完全不同。也许某一结论在某一时间段内得到的结果符合我们的预期,而当我们往后退 10 年,或者往前推 10 年再次回归,就会发现得到的结论完全不同!因此,选择正确的研究时间段也显得十分重要。在稳健性检验中,我们可以通过扩宽时间长度或者缩短时间长度来检验我们的结论。7.扩展时间窗口仇童伟 (2019) 在研究宗族代理人对村庄地权变更的影响时在第一个稳健性检验方法中提到,村庄的丧葬习俗表征了社区开放程度,在原文中采用了 2012-2014 的数据,而在稳健性检验中补充采用 1990-2014 年村庄丧葬习俗进行了处理。因为与仅采用 2012-2014 年丧葬习俗相比,采用 6 个时期的丧葬习俗可以规避单一时期测量造成的误差。类似的文章还包括朱晓文 (2019) 研究家族企业代际传承的文章中。为了探讨长期的影响,除了扩展时间窗口外,陈冬华 (2018) 在研究产业政策与股价同步性的关系中提到,产业政策作为一种国家级政策,每五年发布一次,影响周期为五年。因此,作为一种长期政策,其对企业的影响可能存在长期性,文章的研究区间应该扩展至全年度而非短时间区间范围。基于此,参考错层事件双重差分方法,文章进一步探究了国家产业政策影响股价同步性的长期表现。8.缩短时间窗口李卫兵 (2019) 在研究空气污染对企业生产率的影响时在稳健性检验部分提到该文选定的样本期为 1998-2013 年,而大部分基于中国工业企业数据库进行研究的文献主要利用 1998-2007 年的企业数据,虽然该文对某些缺失的数据根据相关的会计准则进行了补齐处理,为避免处理后的数据干扰实证结果,作者将样本调整为 1998-2007 年,并重新进行 RD 估计。缩短时间窗口的另一个好处是可以排除其他政策的影响,比如王雄元 (2019) 在研究“一带一路”如何影响企业创新行为的研究中提到,中国于 2013 年正式提出“一带一路”倡议,因此在样本仅保留 2013 年及以后开通“中欧班列”的样本有助于将本文的研究统一置于“一带一路”倡议的背景下,排除可能的其他政策干扰。(注:另一种排除同时期其他政策的影响的影响是通过控制同时期政策带来的影响,比如齐绍洲 (2018) 在研究排污权交易试点政策是否诱发了企业绿色创新文章时提到,排污费征收政策与排污权交易试点政策并行,我们可以通过需要控制排污费征收政策对企业绿色创新的影响,进一步提炼排污权交易试点政策对企业绿色创新的因果关系。)类似的缩短时间窗口的文章包括何欣 (2016) ;孙传旺 (2019)9.滚动窗口法陈冬华 (2018) 在研究产业政策对股价同步性影响文章中提出,产业政策的影响是一个循序渐进的过程,因此在稳健性检验部分基于滚动窗口的实证研究方法对产业政策进行了动态研究。当我们选择好了时间之后,同时也要确定我们的样本是否最能体现我们所研究的问题,同时样本中有没有极端值会影响我们的结果。因此,在稳健性检验中,我们需要将个别离群值剔除,或者在样本中选择最适合我们研究目的样本 来检验我们的结论是否依然稳健。10.选择子样本鞠雪楠 (2020) 在研究跨境电商平台克服了哪些贸易成本时提出在跨境电商出口贸易中,中国向各个国家(地区)出口的分布并不均衡。其中,美国是中国最大的出口目的地;中国香港和新加坡是全世界重要的转口贸易地区,中国向这个两个地区的出口可能也有转而向其他国家出口。为了确保实证分析的结论不受特定国家(地区) 和转口贸易的影响,本文给出了剔除这三个国家以及地区的样本之后的实证分析结果。同样的文章可以参考刘怡 (2017) ;李卫兵 (2019) ;蔡栋梁 (2018) ;何晓斌 (2013) ;叶迪 (2017) ;申广军 (2017) ;铁瑛 (2019) ;李春涛 (2020) ;罗勇根 (2019) ;陈强远 (2019)。11.缩尾处理在处理离群值时,我们要进行缩尾处理,陈强远 (2019) 在研究中国技术创新主要激励政策对企业技术创新质量和数量的影响时提到,由于控制变量如资产收益率与负债比率的测算存在极端值,尽管上文已对资产收益率与负债比率进行了 5%分位上双边缩尾。但为了进一步验证前文结论的稳健性,接下来本文对企业的资产收益率与负债比率进行了 1%分位上双边缩尾处理。12.扩充样本容量除了剔除部分样本进行回归之外,我们依然可以通过增加样本来进行稳健性检验。比如原文中只采用了省会城市进行分析,在稳健性检验部分则可以将样本扩大到所有地级市城市,这一方法有时也被称为降低数据维度。比如李卫兵 (2019) 在研究空气污染对企业生产率的影响时提到,本文提取的 PM2.5 排放浓度来源于城市层面,同时由于大样本选择下更易带来显著的回归结果,为了证明回归结果的准确性,我们参考江艇等 (2018) 的处理方法计算出城市层面的 TFP,将区域层面的数据降低至城市层面。(注:除了降低数据维度,我们同样可以提高数据维度,比如铁瑛 (2019) 在人口结构变动的影响时多个个体维度进行调整,分别加总至企业维度和城市维度进行稳健性分析)。内生性问题是我们每个文章都要考虑到的问题,施炳展 (2020) 在分析互联网对中国制造业企业分工水平的影响时将大部分稳健性检验的篇幅都留给了内生性问题,可见内生性问题对我们研究的重要性。在处理内生性问题时,我们通常采用以下几种方法进行稳健性检验:13.工具变量法工具变量是解决内生性问题的一个重要方法,比如施炳展 (2020) 选择了中国建国初期各省份人均函件数量作为省份层面企业互联网普及率的工具变量,选择一个合适的工具变量可以对整个研究都有重要的影响,但同时也是十分困难的,我们可以通过大量的文献阅读积累来选择最合适本文研究的工具变量。类似的利用工具变量克服反向因果关系的文献可以参考蔡栋梁 (2018) ;周京奎 (2019) ;梁斌 (2020) ;刘启仁 (2020) ;张龙鹏 (2016) ;罗勇根 (2019)14.加入滞后变量部分研究也会将自变量的滞后一期或者两期变量纳入模型中来解决内生性问题,比如孙传旺 (2019) 在研究交通基础设施与城市空气污染的关系时除了控制核心解释变量的内生性偏误,我们还担心其他控制变量也可能存在潜在的内生性问题。为了检验结果稳健并排除这一种担忧,将其他所有控制变量滞后一期;黄健柏 (2015) 到工业用地价格扭曲对企业过度投资的影响可能存在更长的时滞效应,把回归模型中的工业用地价格扭曲程度变量替换为滞后两期项, 重新进行回归分析;李春涛 (2020) 考虑到创新投入也是影响专利产出的重要因素,本文在控制变量中加入企业创新投入的指标,并采用研发支出总额占销售收入之比来度量。由于创新投入对创新产出的影响具有时滞性,本文使用滞后一期的创新投入指标。类似的文章可以参考顾夏铭 (2018) ;刘启仁 (2020) 。15.样本自选择问题陈强远 (2019) 在研究中国技术创新主要激励政策对企业技术创新质量和数量的影响中提到,高新技术企业认定等技术创新激励政策可能存在自选择问题,即企业整体绩效较好的企业更容易享受优惠政策, 这可能导致估计结果存在偏误。为了解决这一问题,文章采用 Heckman 两步法进行了稳健性检验。类似的文章包括蔡晓慧 (2016) ;周颖刚 (2019) 等。注:因为内生性问题十分重要,也有一些文章不将其作为稳健性检验的一部分,而是作为正文当中的一部分,比如高晶晶 (2019) ;韩永辉 (2017) ;余吉祥 (2019)。16. 验证前提条件正如前文提到,稳健性检验就是为了检验回归方法中的前提条件是否满足,比如吕越 (2019) 在采用双重差分法研究“一带一路”倡议的投资对对外投资的影响时检验了 DID 的方法成立的条件,包括安慰剂检验,平行趋势检验等等,类似的文章周茂 (2019) ;朱晓文 (2019) ;梁斌 (2020) ;陈冬华 (2018)同样李卫兵 (2019) 也在使用 RD 估计时,辅助进行了 RD 检验的有效性检验。;类似文章还有梁若冰 (2016)。17.模型替换法在上文中提到的蔡晓慧 (2016) 这篇文章中,作者依次在正文中采用线性概率模型进行研究后,在稳健性检验部分又依次采用 Logit 模型、Probit 模型进行估计基础设施对企业是否投入研发的影响;同样施炳展 (2020) 考虑到线性回归模型潜在的模型设定偏误,以面板 Tobit 模型替换线性回归模型后重新进行了回归;李春涛 (2020) 认为本文使用的专利数量有大量的零值,存在截尾数据的特征,因此使用 Tobit 模型进一步检验金融科技发展对企业创新的影响;祝树金 (2020) 用断点回归能较好的识别因果关系,这里使用这种方法对前文的 DID 回归进行稳健性检验。18.更换新的数据源何兴强 (2019) 在探讨房价收入比对家庭消费房产财富效应的影响时,为了增强研究结论的稳健性,分别使用了调查数据、宏观数据、和不同的家庭调查数据重新估计本文的主要回归。这种方法对于数据的要求较高,因此使用频率较低。在我们进行完稳健性检验后,我想大家可能跟笔者一样也经常遇到不稳健的结果,因此,这里想跟大家分享一下 Cristobal Young (2015) 在针对稳健性检验时提出的一段话:学者总是在努力能够通过他的文章采用无懈可击的证据来讲述一个“完美”的故事,但实际上我们必须承认,不稳健的结论有时可以引发我们更多深入的思考,也许一个重大的发现就隐藏在我们不稳健的结果背后。在稳健性检验时,我们需要更多的耐心来面对我们不稳健的结果,同时我们也需要更多的动力来揭秘不稳健结果背后隐藏的秘密。因此,最后希望大家在面对不稳健的结果时,不要感到无措或者恐慌,静下心来思考一下背后的原因,这才是研究的意义所在

91 评论

pinkyoyo0403

不是。稳健性检验缩尾处理一般只对连续变量进行缩尾,0-1变量不需要。

143 评论

罗成or房谋杜断

杨汝岱、李艳,2013:《区位地理与企业出口产品价格差异研究》,《管理世界》第7期,第21-30页。杨汝岱、朱诗娥,2013:《企业、地理与出口产品价格:中国的典型事实》,《经济学季刊》第12卷第4期,第1347-1368页。陈斌开、杨汝岱,2013:《土地供给、住房价格与中国城镇居民储蓄》,《经济研究》第1期,第110-122页。易行健、张波、杨汝岱、杨碧云,2012:《家庭社会网络与居民储蓄行为:基于农村住户调查数据的实证检验》,《管理世界》第5期。聂辉华、江艇、杨汝岱,2012:《中国工业企业数据库的使用现状和潜在问题》,《世界经济》第5期。朱诗娥、杨汝岱,2012:《城乡居民消费差距与地区经济发展水平》,《经济评论》第1期。杨汝岱、陈斌开、朱诗娥,2011:《基于社会网络视角的农户民间借贷需求行为研究》,《经济研究》第11期。陈斌开、张鹏飞、杨汝岱,2010:《政府教育投入、人力资本投资与中国城乡收入差距》,《管理世界》第1期。杨汝岱、陈斌开,2009:《高等教育改革、预防性储蓄与居民消费行为》,《经济研究》第8期,第113-124页。徐尚昆、杨汝岱,2009:《中国企业社会责任及其对企业社会资本的影响——基于1268家工业企业调研数据的实证研究》,《中国软科学》第11期。朱诗娥、杨汝岱,2009:《中国本土企业出口竞争力研究》,《世界经济研究》第1期,第8-14页。杨汝岱、姚洋,2008:《有限赶超与经济增长》,《经济研究》第8期,第29-42页。杨汝岱,2008:《制度与发展:中国的实践》,《管理世界》第7期,第151-159页。杨汝岱,2008:《中国工业制成品出口增长影响因素研究:基于1994-2005年分行业面板数据的经验分析》,《世界经济》第8期,第32-41页。杨汝岱、朱诗娥,2008:《中国对外贸易结构与竞争力研究:1978-2006》,《财贸经济》第2期,112-119页。杨汝岱,2008:《香港转口贸易及其对中美贸易平衡的影响》,《经济科学》第2期,第65-77页。杨汝岱、朱诗娥,2007:《公平与效率不可兼得吗?——基于居民边际消费倾向的研究》,《经济研究》第12期,第46-58页。徐尚昆、杨汝岱,2007:《企业社会责任概念范畴的归纳性分析》,《中国工业经济》第5期,第71-79页。杨汝岱,2007:《中美贸易逆差根本不应成为问题》,《国际经济评论》第4期,第32-35页。杨汝岱、朱诗娥,2007:《珠三角地区对外贸易发展的国际比较》,《国际贸易问题》第12期,第60-67页。杨汝岱、姚洋,2006:《有限赶超和大国经济发展》,《国际经济评论》第4期,第16-19页。Beck, Thorsten, Liping Lu and Rudai Yang, 2014, Finance and Growth for Microenterprises: Evidence from Rural China, World Development (SSCI), forthcoming.He, Canfei and Rudai Yang, 2014, Determinants of Firm Failure: Empirical Evidence from China, Growth and Change (SSCI), forthcoming.Yang, Rudai and Canfei He, 2014, The Productivity Puzzle of Chinese Exporters: Perspectives of Local Protection and Spillover Effects , Papers in Regional Science (SSCI), Vol.93, No.2, pp.367-384.Chen Binkai and Rudai Yang, 2011, Understanding China's Rising Saving Rate: the Role of Higher Education Reform, in The New Chinese Economy, Edited by Elias Grivoyannis, Palgrave Macmillan Press.Xu, Shangkun and Rudai Yang, 2010, “Indigenous Characteristics of Chinese Corporate Social Responsibility Conceptual Paradigm”, Journal of Business Ethics (SSCI), Vol.93, No.2, pp.321-333.Yang, Rudai, Yang Yao and Ye Zhang, 2009, Technological Structure and Its Upgrading in China, China Economic Journal, Vol.2, No.1, pp.55-73.Zhu, Shi'e and Rudai Yang, 2009, “Comparative Study on Foreign Trade Development Patterns of the Yangtze River and the Pearl River Delta”, Frontier of Economics in China, Vol.4, No.2, pp.228-249.Xu, Shangkun, Rudai Yang and Xiang Dai, 2008, Corporate Social Responsibility of Chinese Firms and Its Impacts on Corporate Social Capital: An Empirical Study Based on 1268 Manufacture Firms Investigation, International Journal of Psychology (SSCI), Vol.43, No.3-4, pp.704-704.Yang, Rudai, Yang Yao and Ye Zhang, 2008, Upgrading Technology in China’s Exports, in Jun Zhang and Arthur Sweetman, editors. Economic Transitions with Chinese Characteristics: Thirty Years of Reform and Opening Up. McGill-Queen's University Press.Yang, Rudai and Yang Yao, 2007, Limited Catch-up and China’s Economic Growth, in John Wong and Wei Liu, editors. China’s Surging Economy: Adjusting for More Balanced Development. World Scientific.

279 评论

冒火得很000

中国工业企业数据库的使用现状和潜在问题 聂辉华 江艇 杨汝岱  提要:在经验研究中,企业级的微观数据正受到越来越多的重视。中国工业企业数据 库成为海内外学者研究中国企业行为和绩效的主要数据库之一。但是该数据库存在样本匹配 混乱、变量大小异常、测度误差明显和变量定义模糊等严重问题,忽视这些问题可能会导致 研究结果错误。本文介绍了该数据库的基本情况和使用现状,指出了该数据库的若干缺陷, 并根据现有研究提供了若干改进建议。 关键词:企业数据 工业企业 微观计量 制造业 生产率 JEL 分类号:C33 D24 L22 L60 一、引言 数据是经验研究的细胞,因此数据质量的好坏直接决定了经验研究的活力。最近十多 年来,国际经济学界越来越重视使用微观面板数据(longitudinal micro-level data)的研究。 相对于宏观数据或行业数据,微观的企业数据或个体数据的优势是非常明显的:第一,微观 面板数据包含了更多信息,例如企业的所有制、规模和出口等状态,这些信息对于企业行为 研究是必不可少的;第二,微观面板数据同时包含了时间维度和个体维度,有助于解决计量 经济学中的个体异质性问题,更容易保证估计的一致性;第三,微观面板数据增加了观测值 个数,使得估计更有效率。对于产业组织理论、企业理论、公司金融、国际贸易、收入分配 和劳动供给等研究领域来说,经验研究的数据主要就是微观数据。 伴随微观计量经济学的引入和国内外微观数据库的开放,中国经济学者越来越重视微 观数据的开发和使用,并生产了很多基于微观数据的研究成果。一些中国数据库甚至被全世 界各国学者使用,这一方面表明中国问题越来越受到国际经济学界的重视,另一方面也表明 中国数据的质量得到了越来越多的认可。特别是,相当多海内外学者使用了“中国工业企业 数据库”(Chinese industrial enterprises database) ① ,其研究成果广泛发表在包括《American Economic Review》(如Song等,2011)、《Quarterly Journal of Economics》(如Hsieh和Klenow, 2009)和《经济研究》等国际和国内著名学术期刊上。作为一个由中国国家统计局收集的 数据库,它的优点是样本大、指标多、时间长。但是,它毕竟不是一个由学术机构发布的数 据库,因此在很多方面还不太符合学术研究的严格要求,其缺陷包括样本匹配混乱、指标存 在缺失、指标大小异常、测度误差明显和变量定义模糊等严重问题。我们认为,如果研究者 没有察觉到这些数据缺陷,并且采取有效的方法缓解或消除这些缺陷,那么就会对经验研究 的结果产生负面影响,甚至会导致错误的结果。而错误的结果对于理论研究和经验研究来说, 不仅浪费了时间和精力,而且可能会产生误导作用。鉴于此,我们认为有必要详细地、严谨 地讨论中国工业企业数据库的基本情况、使用现状,指出其存在的问题,并尽可能提供解决 问题的建议。我们希望,本文的分析不仅有助于潜在使用者了解该数据库的研究现状和未来  聂辉华,中国人民大学经济学院,人大企业与组织研究中心,北京市 100872;email: 。 江艇,中国人民大学经济学院,人大企业与组织研究中心,;杨汝岱,湘潭大学消费 研究院,。作者感谢何帆对写作本文提供的建议,感谢屠顺杰提供的助研工作,同时 感谢两位匿名审稿人提供的有益建议。本文的研究得到姚洋主持的国家社科基金重大项目“我国中长期经 济增长与结构变动趋势研究(09&ZD020)”和聂辉华、杨汝岱分别主持的教育部新世纪优秀人才项目的资 助,特此鸣谢。文责自负。 ① 一些英文文章将该数据库名称翻译为“China Annual Survey of Industrial Firms”或“China Annual Survey of Manufacturing Firms”。 1 本文发表于《世界经济》2012 年第5 期 方向,而且有助于他们更准确地使用该数据库,从而推进相关领域的研究。当然,作为该数 据库的使用者之一,我们并不能保证我们全面地熟悉了该数据库,并且我们对问题的分析不 可避免地包含了一定的研究倾向。 二、数据库基本信息 我们首先简单地描述数据库的基本情况。中国工业企业数据库由国家统计局建立,它 的数据主要来自于样本企业提交给当地统计局的季报和年报汇总。该数据库的全称为“全部 国有及规模以上非国有工业企业数据库”,其样本范围为全部国有工业企业以及规模以上非 国有工业企业,其统计单位为企业法人。这里的“工业”统计口径包括“国民经济行业分类” 中的“采掘业”、“制造业”以及“电力、燃气及水的生产和供应业”三个门类,主要是制造 业(占 90%以上)。这里的“规模以上”要求企业每年的主营业务收入(即销售额)在 500 万元及其以上,2011 年该标准改为2000 万元及其以上。基于上述统计口径的数据库自1998 年开始采集,但多数学者使用的工业企业数据库涉及的年份在1999-2007 年之间。由于该 数据库的主要成份为制造业企业,在统计口径上与其它国家的产业分类比较一致,而且一些 变量(例如资本、研发投入和出口交货值)更容易度量,因此使用者通常析出该数据库中的 制造业企业。制造业的统计口径包括从农副食品加工业、食品制造业到工艺品及其它制造业、 废弃资源和废旧材料回收加工业等30 个大类(二位数行业),对应于国民经济行业分类与代 码(GB/T4754—2002)中的代码 13-43(没有 38)。为了保持企业样本的完整性,同时与 现有研究具有可比性,我们以1999-2007 年全部国有及规模以上非国有工业企业作为我们 分析该数据库的主要样本。 1999-2007 年中国工业企业数据库包括了 200 多万个观测值,每年的样本企业数量从 1999 年的大约16 万家逐年递增到2007 年的大约33 万家。 ① 在9 年样本期内,总共有大约 55 万家企业出现,包括上市公司。显然,这是一个巨大的非平衡面板数据。由于企业关闭、 改制、重组等各种原因,只有4 万6 千多家企业(约占样本企业总数的8%)连续出现在整 个样本期间。该数据库样本占据了中国工业企业的绝大部分比例。根据具有可比性的 2004 年第一次全国经济普查年报,当年工业企业销售额为218442.81 亿元。而中国工业企业数据 库当年全部样本企业的销售额为195600 亿元,约占全国的89.5%。 ② 目前,除了经济普查 数据库,中国工业企业数据库是可获得的最大的企业级数据库。表1 描述了1999-2007 年 企业总数和国有、集体、民营、外资企业(含港澳台企业)的份额变化。可以看出,国有和 集体企业的比例在显著减少,从1999 年的三分之二下降到2007 年的不足十分之一,而民营 企业的比例从不足 20%迅速增加到超过 70%。该表从一个侧面反映了中国市场经济结构的 剧烈变动。 表1 中国工业企业的类型、数目和比例 年份 国有 比例% 集体 比例% 民营 比例% 外资 比例% 总数 1999 52817 32.86 53507 33.29 27757 17.27 26652 16.58 160733 2000 44665 27.66 49383 30.58 39192 24.27 28240 17.49 161480 2001 36781 21.67 42528 25.06 59208 34.89 31178 18.37 169695 2002 31570 17.55 38237 21.25 75884 42.18 34208 19.02 179899 2003 25157 12.93 32334 16.62 98698 50.74 38318 19.70 194507 ① 学者们使用的该数据库可能有几个不同的来源,但是内容相差很小。 ② 经济普查的工业企业销售额来自国家统计局网站《第一次全国经济普查主要数据公报(第二号)》,工业 企业数据库中的工业企业销售额来自作者计算。 2 本文发表于《世界经济》2012 年第5 期 2004 27403 9.89 26896 9.70 165864 59.85 56976 20.56 277139 2005 18520 6.86 23875 8.84 171603 63.53 56112 20.77 270110 2006 16209 5.40 20983 6.99 202417 67.43 60585 20.18 300194 2007 11724 3.50 19355 5.78 236823 70.68 67174 20.05 335076 来源:作者根据数据库计算 事实上,工业企业数据库也是最全面的企业数据库。该数据库包括企业的两类信息, 一类是企业的基本情况,另一类是企业的财务数据。企业的基本情况包括:法人代码、企业 名称、法人代表、联系电话、邮政编码、具体地址、所属行业、注册类型(所有制)、隶属 关系、开业年份和职工人数等指标。企业的财务数据包括:流动资产、应收账款、长期投资、 固定资产、累计折旧、无形资产、流动负债、长期负债、实收资本、主营业务收入、主营业 务成本、营业费用、管理费用、财务费用、营业利润、利税总额、广告费、研究开发费、工 资总额、福利费总额、增值税、工业中间投入、工业总产值和出口交货值等指标。全部指标 大约为 130 个。特别是,2004 年为第一次全国经济普查年,因此在数据库中当年的企业指 标还包括了不同学历(研究生、本科、大专、中专、高中、初中及以下)、不同职称(技术 职称和技师等)的男职工和女职工的相应数量,此外还包括了企业是否加入工会以及加入工 会的人数等其它年份所没有的信息。 毋庸置疑,工业企业数据库的优势非常显著。第一,它的样本量非常大,涵盖了全国 所有的国有工业企业和规模以上的非国有工业企业。9 年的观测值总数超过200 万个。2006 年之后,每年的样本企业数目已经超过了30 万个。除了普查数据库,还没有哪个企业数据 库在样本量上能与之匹敌。从统计学或计量经济学的角度讲,大样本的优势是降低估计的近 似偏误,提高估计的效率。第二,它的指标非常多,包括了企业的基本情况和企业的财务数 据,能够从多个角度比较全面地反映企业的市场进入、投资、借贷、广告、研发、出口等行 为和企业的短期与长期经营绩效,并且企业加总数据能够反映出企业所处行业或地区的市场 结构。从产业组织理论的角度讲,一旦可以获得市场结构、企业行为和绩效的数据,学者们 几乎就可以进行任何主题的研究!公司金融、企业理论、国际贸易和产业集聚等相关领域的 研究者们也可以对该数据库各取所需,包括进行跨专业研究。如果将该数据库和其它数据库 合并,那么学者们将会发现更加丰富的研究视角。指标越多,在构建计量方程时解释变量和 控制变量就越多,这样可以减少遗漏变量问题。第三,它的时间序列比较长。工业企业数据 库最早的建立年份是1998 年,目前已经更新到了2008 年,前后跨期11 年。这使得研究者 采用动态面板方法具有可行性,从而有助于反映历史因素的作用,以及从动态的角度研究企 业和产业的演化过程。 相对而言,目前流行的其它几个企业数据库,例如万得金融数据库、色诺芬经济金融 数据库、国泰安上市公司数据库,样本企业都是上市公司,它们的指标更全面、准确,提供 指标的频率也更高。比如,这些上市公司数据库通常包括了主要股东持股情况、董事会成员 和高管的个人特征以及职位变动,从而可以研究公司治理结构。另外,上市公司数据库不仅 包含工业类上市公司,还包含了金融类和服务类上市公司,这也是工业企业数据库所缺乏的。 此外,一些特定的调查项目也催生了企业数据库。例如,2006 年世界银行和国家统计局对 中国12 省的1200 多家企业进行了调查,内容涉及企业社会责任、内部管理、质量管理、劳 动管理、环境管理、市场竞争以及技术改造等方面。从1991 年到2006 年,中央统战部和全 国工商联陆续对全国民营企业的经营情况进行了抽样调查,内容涉及企业基本情况、管理体 制、企业家背景以及劳资关系等方面。 ① ① 关于其它企业数据库,感兴趣的读者可以访问香港中文大学中国研究服务中心的网站。 3 本文发表于《世界经济》2012 年第5 期 三、数据库使用现状 由于工业企业数据库的独特优势,近几年来每年都有大量的海内外经济学者使用该数 据库撰写和发表论文,主题涵盖产业组织理论、企业理论、公司金融、转型经济学、国际贸 易、劳动经济学和区域经济学等学科。下面,我们简要介绍工业企业数据库在上述经济学分 支中的使用现状。一方面,我们希望这有助于感兴趣的研究人员了解人们在不同领域已经用 该数据库做了什么,还可以做什么;另一方面,我们希望这有助于感兴趣者了解现有研究者 是如何做这些研究的。当然,囿于篇幅和精力,我们不可能囊括所有使用该数据库的文献, 而是将目光聚焦于国内外的主要学术期刊或者流传较广的英文文章。 1、生产率 在所有使用该数据库的相关研究文献中,企业生产率是最受关注的主题。因为生产率 是最重要的效率度量,正如克鲁格曼(Krugman,1997)所言:“生产率不是一切,但是长 期来看生产率近似于一切。”而且,对于计算企业生产率而言,工业企业数据库提供了加总 数据所不具有的独特优势。利用工业企业数据库中提供的销售额或经济增加值(表示Y)、 固定资产(表示K)和职工人数(表示L),采取相应的价格指数进行平减,可以计算出每个 企业的劳动生产率和全要素生产率(total factors productivity,简称TFP)。鉴于劳动生产率 不能反映资本的效率,因此多数文献以TFP作为生产率的度量。又因为制造业口径与国际产 业分类更具可比性,所以现有文献在计算TFP时几乎都以制造业企业为样本。在计算TFP时, 一些学者采取了传统的索洛残差法(Solow residual),例如谢千里等(2008)、Hsieh和Klenow (2009);一些学者采取了主流的OP方法(Olley和Pakes,1996),例如张杰等(2009)、余 淼杰(2010)、聂辉华和贾瑞雪(2011)、杨汝岱和熊瑞祥(2011)、Brandt等(2012);一些 学者采取了LP方法(Levinsohn和Petrin,2003),例如周黎安等(2007);一些学者采取了随 机边界方法(SFA),例如刘小玄和李双杰(2008)。 ① 2、国际贸易 与生产率研究密切相关的是国际贸易,更具体地说,是考察企业出口与生产率的关系。 根据著名的企业异质性假说(Melitz,2003),生产率高的企业会倾向于选择出口,即生产 率和出口是正相关的。工业企业数据库包含了企业出口交货值,但无法区分一般贸易和加工 贸易企业。利用工业企业数据库,一些学者检验了这一假说对于中国企业是否成立。张杰等 (2009)利用1999-2003 年的制造业企业数据发现,出口有利于企业提高TFP,即存在出 口的“学习效应”。而李春顶(2010)利用1998-2007 年的样本发现,出口企业的平均TFP 或劳动生产率低于内销企业,他认为这是“生产率悖论”。此外,赵伟等(2011)发现劳动 生产率与出口选择是负相关的,但 TFP 有时与出口选择是正相关的。这似乎表明,利用该 数据库文献研究还没有明确地支持企业异质性假说,但 Lu(2010)对此提供了一个理论解 释。还有一些学者利用工业企业数据库做了相关的研究。例如,余淼杰(2010)发现,贸易 自由化(降低关税)会提高出口企业的TFP;包群等(2011)发现,制造业企业出口后对其 员工收入的改善并不明显;杨汝岱和郑辛迎(2011)发现行业的垂直专业化程度对企业员工 工资有差异化影响。 3、外商直接投资 中国加入 WTO 已经十周年了,外商直接投资(FDI)究竟在中国的经济发展中扮演了 什么样的角色?亓朋等(2008)利用1998-2001 年的制造业企业数据,考察了外资企业对 内资企业 TFP 的溢出效应,发现在行业内溢出效应不显著,行业间和地区间均存在正的溢 出效应。罗雨泽等(2008)使用2000 年和2002 年的制造业企业数据,发现外商投资企业对 ① 聂辉华和贾瑞雪(2011)比较了计算TFP 的几种方法的优劣。 4 本文发表于《世界经济》2012 年第5 期 本行业和本地区的内资企业有显著正的溢出效应。有趣的是,路江涌(2008)利用 1998- 2005 年的制造业企业数据,发现外资企业对内资企业的溢出效应随地理距离而递减,在本 市内溢出效应为正,在全国范围内为负,并且对国企为负,对民企为正。Du 等(2011)发 现,外资企业对内资企业的溢出效应主要是通过前向或后向产业关联实现的,横向产业关联 没有产生显著的溢出效应;而且,来自港澳台的外资企业和来自外国的外资企业对内资企业 的影响也不相同。Xu 和Sheng(2011)也得到了类似的发现。Sheng 等(2011)还发现,FDI 通过后向产业关联提高了内资企业的出口价值,通过同行业的示范效应提高了内资企业的出 口倾向。Chen 等(2011)发现,外资企业具有明显的工资溢价,并且对内资企业的工资有 抑制作用,从而加剧了企业之间的工资不平等现象。 4、研发 技术创新是企业生产率的重要源泉之一,因此企业的研究开发(R&D)行为也备受关 注。关于 R&D 的文献主要分为两类:第一类是研究 R&D 或者企业创新的决定因素,主要 是检验“熊彼特假说”;第二类是研究企业的 R&D 对绩效的影响。聂辉华等(2008)利用 2001-2005 年的制造业企业数据,分析了发现企业的研发密度(度量创新)与规模、市场 竞争之间均呈倒 U 型关系,而且尽管国有企业的研发密度比民营企业的更高,但是研发的 效率更低。Hu 等(2009)发现FDI 和企业改制对于促进企业研发密度有正面作用。陈林和 朱卫(2011)使用2005-2006 年的工业企业数据,根据国有经济比重区分行政进入壁垒高 的行业和行政进入壁垒低的行业,发现在前一类行业中创新与市场结构之间是倒U 型关系, “熊彼特假说”成立,但是在后一类行业中相反。Chesbrough 和Liang(2007)以制造业中 的半导体行业为例,发现市场导向会影响企业R&D 的投资回报,即全球市场导向的企业比 国内市场导向的企业能够获得更高的 R&D 回报。戴觅和余淼杰(2012)发现,出口前的 R&D 投资能够促进企业在出口后的生产率提高。 5、民营化 中国国有企业改革的主要成效之一,就是大量的国有企业进行了转制,即从百分之百 的国有企业变成了国有控股企业或者民营企业。这一点明显地反映在国有工业企业的实收资 本成份变化上。Tong(2009)利用1998-2003 年的工业企业数据,发现市场竞争的加剧、 FDI 集中度的上升以及预算约束的硬化是国企民营化的主要动因,而且绩效相对好的国企更 有可能民营化。Bai 等(2009)研究了国企民营化的影响,发现民营化增加了销售额和劳动 生产率,而这主要是通过减少管理费用来实现的。Dougherty 等(2007)发现,民营化通过 提高企业的赢利能力和生产的地区专业化水平提高了企业的生产率。Lu 等(2010)发现, 集体企业的私有化导致了销售成本的上升,但是也导致了管理费用的下降。 6、公司金融 由于中国工业企业数据库包含了丰富的财务指标,因此很多学者用它研究企业的投资、 融资和避税行为。Cai 和 Liu(2009)提出了一个有趣的问题:竞争是否会加剧公司规避所 得税?他们识别避税程度的方式是,比较企业报告的利润和根据会计规则计算的利润之间的 差额。使用 2000-2005 的工业企业数据,他们发现竞争会加剧企业的避税行为。Cull 等 (2009)认为,中国的银行贷款(loan)和商业信用(trade credit)之间存在一种替代关系, 业绩差的国企会通过商业信用将银行贷款再配置给企业客户,而业绩好的民营企业比业绩差 的民营企业更有可能扩展商业信用。余明桂和潘红波(2010)利用2004-2007 年的工业企 业数据发现,企业(特别是私有企业)会将授予客户的商业信用作为产品市场竞争的手段, 这验证了商业信用的竞争假说。Guariglia 等(2011)发现,民营企业的内部融资(现金流/ 总资产)是企业增长的重要约束条件,而国有企业则不受此类约束。 7、产业集聚 利用企业层面的数据,我们可以得到行业或地区层面的加总数据,这可以反映中国工业 5 本文发表于《世界经济》2012 年第5 期 的产业集聚现象。使用1998-2005 年的制造业企业数据,Lu 和Tao(2009)考察了中国制 造业集聚(用EG 指数衡量)的决定因素,发现地方保护主义(国有企业的雇佣比例)是阻 碍产业地区集聚的主要因素。另外一些学者考察了产业集聚对企业的影响。Li 等(2011) 发现产业集聚对企业规模有显著的正面影响。Lin 等(2011)发现,产业集聚和企业生产率 之间存在一种倒U 型关系。Yang 和He(2011)发现贸易通过信息和分工影 转载仅供参考,版权属于原作者。祝你愉快,满意请采纳哦

292 评论

相关问答

  • 中国全文期刊数据库

    中国学术期刊网络出版总库检索方法主要分为快速检索、标准检索和专业检索。 1、快速检索: 快速检索只有一个检索框,不限定字段、词位及词频,系统将在全文中进行检索匹

    fantienan002 3人参与回答 2023-12-10
  • 论文企业研究意义

    调查用户需求、消费偏好、看重的产品卖点,了解产品、市场发展趋势,为生产/销售企业对产品进行定位、推广促销提供依据

    蜜糖Rose 5人参与回答 2023-12-08
  • 中国文献期刊数据库

    1、中国知网: 知网,是国家知识基础设施的概念,由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目。由清华大

    无双天帝 2人参与回答 2023-12-09
  • 中国四大论文数据库

    一般来说鲜明的要求写人的论文都已经给出题目,大部分是命题或者半命题,当然也存在让你拟题的可能。题目是文章的窗口,拟一个好题目,可以使文章增色不少,怎样拟好写人论

    孙家员外 7人参与回答 2023-12-11
  • 中国卓越论文数据库

    国内主要有5大期刊数据库一、中国知网提供的《中国学术期刊(光盘版)》也称中国期刊全文数据库由清华同方股份有限公司出版。收录1994年以来国内6 600种期刊,包

    金凤吉祥如意 7人参与回答 2023-12-08