欢迎来到学术参考网

大数据与经济学:特征、原理、影响及未来

发布时间:2016-04-15 11:51

  在经济学领域,大数据应用还处于初步探索阶段,但随着海量经济数据的几何式增长,以及网络技术与计算方法的不断完善和更新,将大数据运用于经济学逐渐成为学术界、商界以及社会广泛关心的热点问题之一。文章分析了大数据经济学特征、大数据在经济学领域应用的基本原理、大数据对经济学的影响、应用前景以及面临的挑战等问题。认为大数据与经济学的结合为经济学和其他社会科学提出了新的机遇和挑战,未来大数据可能会带来经济学颠覆性的改变,也有可能成为一门独立的学科和方法论。

 

  大数据作为一种有用的信息资源,在商业、金融等领域发挥着越来越重要作用,也逐渐成为社会科学的国际前沿应用研究内容之一。然而,在经济学领域,大数据还鲜少被用到(据统计,截至201412月,google中学术搜索到的与大数据有关的研究论文共3026篇,其中仅有29篇是和经济学相关)。但因海量经济数据资源的快速增长,计算技术和能力的不断提高,以及方法论的不断发展,将大数据分析技术运用于经济学已成为一个值得探讨的新课题。展望未来,由于经济学是一门理论与实践相结合的学科,将大数据应用于经济学,有可能会开辟一个全新的经济学发展领域。

 

  一、大数据在经济学领域应用的基本原理

 

  大数据在经济学中应用的基本思路以大样本数据统计与机器学习技术为基础。其中大样本统计的过程概括如下:用N个代入变量得出对应的N个测量结果与K个潜在的预测因子,比如:以居民消费价格CPI指数预测为例,首先通过GOOGLE数据搜索或其他软件,筛选出同CPI有关的一系列关键词(比如粮食产量、原油期货价格、气候温度、价格改革政策等),然后通过这些关键词在文本数据(新闻、微博、评论、研究报告、学术论文等)出现的时间频次,计算它们之间的相关关系和逻辑路径关系,从而得到测量结果N和预测因子K。在许多情形下,每一个代入变量的信息是足够丰富的,但不具有结构性,故可能会产生很多潜在预测因子,因此,需要注意的是:若是过度拟合,即预测因子K的个数可能会远远大于观测变量N的个数时,虽然模型可完美解释观测到的结果,但样本外数据的解释力却很差。在这种状况下,构造一个最大化样本解释力的模型便成为首要目标,同时构建的模型还不能出现因过度拟合所导致的样本外无力解释的情形。因模型构建不同,使用方法也随之改变,惩罚预测因子的过度使用方式也不同。如Lasso回归模型,在满足一系列约束条件下,依据最小化离差平方和来选择模型系数。通过将样本分为训练样本测试样本”(“训练样本用来估计模型参数,测试样本用来评估模型)进行过度拟合。而在评估预测效果时,一般交叉使用样本内预测与过度拟合,但目前这种交叉验证的方法在当前的实证微观经济学中也鲜少用到。

 

  机器学习的一个非常重要假设就是机器学习的环境是相对稳定的,也就是样本数据(训练样本与测试样本情形相同)独立产生于同一过程。但由于现实环境会随着时间发生改变,故这一假设并不合理,因此,在高频使用新数据的应用中,往往通过对自身持续再训练,从而使得模型可以随着时间与环境的变化对预测结果进行调整。当然,对于机器学习,有些经济学家提出了卢卡斯批判的疑问,即若根据模型的预测结果进行政策调整,则政策调整后的现实结果可能与初始模型的预测结果有差异,因为政策的改变会影响数据间的潜在行为关系,但这一疑问在其他预测模型,比如计量经济模型、结构方程模型和联立系统模型中也都存在。

 

  二、大数据对经济学的影响及前景

 

  如今,随着数据样本容量的急剧增加,使得大数据的使用方式不尽相同。作为一个规律性科学,经济学需要广泛、详细的数据,并运用统计技术来处理新型数据,大数据的出现可能会在社会学与计算机科学间构建一架桥梁,其学科价值可能在于创造新的思维方式,这将会导致对经济学的新思考和研究方法创新,甚至会带来分析经济学方法的质变。

 

  一方面,由于多维度的精细间隔,大数据可以为经济学研究人员提供更多研究变量和视角,可以研究以前难以测度的行为理论,这为经济理论研究提供了一种全新的测量方法。例如:麻省理工大学助理教授Alberto Cavallo设计的百万价格项目,该项目旨在通过一个网络程序,获取网上物品价格,继而运用这些数据计算得出通胀指数,该通货膨胀指数就是阿根廷的精确透明通货膨胀指标,其实时价格数据的捕捉能力和准确度,使得该指标作为政府测量通胀的替代选择。又如,谷歌提供的请求式数据选择也提供了一个探索新机会的理由,目前一个备受瞩目的例子就是及时预报,在某些方面它可以通过庞大经济社会数据集进行短期精确预测。

 

  另一方面,大数据已与行为经济学相适应,成为产业相关经济规律研究的一部分,并且,大数据在经济学领域已经显示出众多的优越性。大数据已有潜力去挑战理性概念,例如对于经济学家在预测问题上的出错概率,强调样本偏差的方法;或者对于政策刺激的外部效应问题,强调在社会媒体中情绪化分析出现的混乱问题,总而言之,大数据与先进的建模策略相结合,可以产生更详细、更准确和更有说服力的解释和分析。

 

  从经济学理论的发展历程或者研究思想上看,总体来说,目前大数据分析技术在经济学中的应用还刚刚开始,处于初级阶段和辅助地位,目前还没有出现跨时代、里程碑式的技术进展。相比于比较完善的宏微观经济学理论、计量经济学理论和金融学等理论等,大数据技术的劣势在于没有严谨的、完整的经济学理论作基础,其对不同关键词的选择具有主观性,很难洞悉其背后的因果关系和逻辑关系;其使用的各种数据挖掘技术(比如自然语言处理算法、分段算法和机器学习算法),从技术上讲,这些技术没有突破传统的理论和思路;而且大数据分析技术的原理主要是分析不同关键词的关联关系及其强弱度,方法比较单一,远远不能代替现有的宏微观建模技术和分析方法。

 QQ截图20160411171731.png

  但是,大数据在经济学中的应用前景旷阔而深远。随着时间的延续,数据容量在飞速增长,数据彼此之间的关系也越来越复杂。对于经济学家而言,传统经济领域就已经有较多的数据量:各种金融交易数据,如优惠卡数据、在线消费数据、详细人口数据等间隔性数据。大数据通过对各种媒体和渠道(比如搜索引擎、社交网络、通话记录、传感器、网络日志等)中不同类型的海量的结构数据、非结构数据和半结构数据进行快速计算和分析,能够解析存在于现实社会、虚拟世界以及虚实混合社会的复杂网络关系,并适时动态地做出判断和决策,这不仅仅是一个把基础数据转变为信息、信息转变为知识、知识转变为智慧的由低到高的转变过程,该过程融合贯通了国家、区域、行业和个人,颠覆了传统的、线性的、自上而下的目标驱动式的精英决策模式,形成了动态的、随机的、非线性的、自下而上的发现群体智慧的数据驱动决策模式;而且这也是一种新技术、新工具,其依据海量的网络资源,充分发挥了电脑对海量信息收集能力和批量化处理能力远远高于人脑的优势,从而有效地弥补人脑功能的不足,这在当今随着互联网、云计算、物联网、社交网络等技术的兴起和普及导致的信息化数据爆发时代,优势明显,应用前景看好。已有研究表明,对于经济学家而言,大数据是一座巨大的宝库,大数据对于社会学研究的魅力已经逐渐显现,不从事大数据研究的经济学家可能会产生较大的机会成本(Mayer2013)

 

  三、大数据在经济学应用中面临的挑战

 

  一方面,大数据已经在经济学的研究中展示出越来越多的优势和强大能力,但另一方面也面临一些问题和质疑,比如大数据集的可获得性,大数据集的管理和处理,以及如何有效地提取大数据集中所隐藏的关键信息等,具体的问题包括以下几点。

 

  1. 因果关系。仅仅通过大数据分析技术,有时难以洞悉或找到事情背后的真正因果关系,比如,根据某城市的数据,电视数量越多,犯罪案件也就越多,两者是正相关的,但是它们之间不是因果关系,真正的因果关系是这个城市的人口在增加,而导致电视多,同时犯罪数量也在增加。虽然在商业应用中,如果通过大数据分析找出了电视和犯罪数量相关,就可以直接应用了,而不在乎里面的原因和结果,但这种相关没有经济学意义,因此,即使对于大数据分析技术得出的计算结果,在使用前应该反复思考,思考其背后经济学逻辑,而不是完全盲目信任。

 

  2. 大数据依然存在数据局限。虽然大数据具有容量大的特征,但是这也是相对的,由于数据收集、硬件设施、数据机密属性等问题,真正的完全样本很难获得,即使在美国,所谓的海量数据也可能存在局部性和片面性,这些数据的抽样样本也不能完全满足统计学中随机抽样的假设(即,i.d.假设)。正如Linnet Taylor(2014)所说,实际上影响社会变革的很多分布都是非对称的,其实很多不是对称的,因此做抽样的时候就得非常慎重。甚至是谷歌(google)和面书(facebook)公司,它们声称的全数据样本,但实际上也不是全部数据,因为,上facebook仅仅是那些有facebook的人或能够上网的人,这些人的观点也不能够代表全部居民,而且这些人的占比和很小,可能没有代表性;还有,这些数据的同质性是没有办法保证的,因为它们是在不同时段用不同方法来收集数据,然后整合在一起,这样的处理办法很难保证这些网站的数据具有完整性和随机性。

 

  3. 如何清洗和获得数据。因为数据越大,噪音可能就越多,比如从微博里面提取的数据,由于这些数据大部分都是无关信息或者是重复信息,因此,如何筛选信息以提高信息准确性也是非常重要和比较棘手的问题。另外,尽管经济学已经具有处理数据量较大样本的娴熟技能和统计技巧,但是大数据的资源可获性仍是社会科学研究面临的一个难题。由于数据资源大部分是专有的(比如,Google的大众可获得数据库(insighttrend)都是被监管的,且在短时期内不太可能完全公开),因此,经济学领域的许多研究者都会碰到获取合适数据的难题。运用企业数据也面临同样的问题,因为数据具有私有性,故研究者只有在与企业签订保密合同的情形下,才可获得这些数据的使用权,虽然随着更多的研究者在其研究中应用大数据,数据也就不再那么难获得,但是,数据资源的完全开放在短期内仍是无法实现的美好愿望。

 

  然而,总而言之,大数据与经济学的结合为经济学和其他社会科学提出了新的机遇和挑战,在未来的几十年,大数据可能会改变经济政策与经济学的研究方法。大数据在经济学中的使用是分析方法、数据管理和分析策略的改变,也是一次基础性的转变,即从基于正态均值和标准差的科学研究转变为基于个体观测值的研究,认识论的改变将给经济学准则基本原理带来质变和量变的双重挑战。由于这些原因,大数据可能会带来经济学颠覆性的改变,也有可能成为一门具有独立的学科和方法论。

上一篇:经济学的文化冲突

下一篇:试论金融经济学的股票市场稳定的意义