欢迎来到学术参考网

大数据对统计学的挑战和机遇

发布时间:2016-05-25 15:34

相关合集:统计学论文

相关热搜:统计学  统计学教学  统计学应用


  大数据给统计学提供了机遇、挑战和紧迫感。本文阐述着大数据的环境利用大数据的目的和大数据带来的整个变革;介绍着有关大数据的研究动向;探讨着大数据包含的信息,大数据的准备处理、抽样和分析方法。

 

当今社会,一方面人们在每个的获取数据。各个科学领域都在大量的获取数据。自然科学领域收集着从宏观的天文数据到微观的基因数据。从经济、金融和人文社会科学收集着大量的数据。

 

一些人们在不断地制造和收集着数据,相信着这些数据也许会对人有用。当然,也有人们不再继续呆在实验室里考核着研究,仅仅依靠着强大的网络数据来进行研究。而人们也在很被动着积累着数据。

 

随着互联网这样的大时代到来,各种方法也涌现出来。各式各样的数据如滔滔江水连绵不绝的涌现出来。现如今数据这样的大体系也在悄悄进行着变化。统计学又面临着新的机遇和挑战,这当然需要在方法论上有所突破和改变。

 

  一、大数据及其目的

 

大数据是一个大样本和高维变量的数据集合。针对这样的问题,用于统计学上来说就是采用抽样减少样本量,最后达到需要的精度。关于这样的问题,急需要变量选择、降维、压缩、分解。广义的说,大数据涵盖了许多种领域,像多源、混合的数据,自然科学、人文社会、经济学、网络、通讯、商业和娱乐各样的领域。这其中大数据涉及了各种数据类型,包括文本和语言、录像和图像、时空网络与图形。

 

大数据的目的就是将数据转化为知识,探索着数据将会产生的机制。并且大数据有着记录保存自然和社会现状的作用。现在的人收集着许多大量的数据。虽然还不是那样的了解。但是依然相信需要保存现在这个社会经济发展的整个过程,满心期待在今后的岁月长河中不断地分析和解释着。

 

大数据将形成自然和人文社会的历史长河,不仅用于当今时代的研究。甚至对于转基因食品对子孙后代的影响来继续深究问题,为未来的人留下先今的历史材料。

 

  二、大数据的处理、抽样与分析

 

  ()数据的预处理。大数据的预处理包含数据清洗、不完全数据填补、数据纠偏和矫正。统计机构的数据是经过严格的抽样设计所得到的[1]。有着代表性和系统误差小的优势。互联网的数据速度更快、量大、项目繁琐,但是难以避免一些这样的问题。将统计机构的数据作为标准来对互联网进行校正。从而将互联网数据作为补充资源对统计机构的数据进行随时随地的更新。这或许是解决问题的一个思路。

 大数据对统计学的挑战和机遇

()大数据环境的抽样。大数据的抽样方法有待研究。不管锅有多大。只要可以充分的均匀搅拌。知道其中的滋味就可以了。针对大数据流环境,需要探索从源源不断的数据流中抽取可以满足统计目的和精度的样本[2]。需要研究新的抽样方法。可以有适应性、序贯性以及动态的抽样方法。

 

尽力数据流的缓冲区,记录着数据所发生的一切变化。利用其他各种抽样技术。比如滚雪球这样的方法,从种子开始逐步扩大着样本。从各种随机种子出发。不断加入新鲜的种子,了解当代网络性质和结构。

 

(三)大数据的分析和整合。针对大数据的高维问题,需要研究降维和分解的方法。探讨压缩大数据的方法,直接对压缩的数据进行传输、运算和操作。除了常规的统计分析方法,包括高维矩阵、降维方法、变量选择之外,需要研究大数据的实时分析、数据流算法。

(四)数据不需要保存,只是需要扫描一遍数据的数据流算法。只是考虑计算机内存和外存的数据传送问题。分布数据和并行计算的方法。

针对多种不同数据库的环境,利用关系数据库技术,根据关键字将很多小数据库连接成一个大数据。并且,在这些大的数据库中还可以分解出许多的小数据库。组合出不同的东西,更可以做出许多有创意的东西。

 

在大数据环境,很多的数据集不再有标识个体的关键字,传统的关键数据库连接方法不再适用。探索不必经过整合多数据库,直接利用局部数据进行推断结果传播的方法。利用统计性质信息损失地分解和压缩大数据。

 

  ()网络图模型。网络图模型用图的结构描述高维变量之间的相互关系,包括贝叶斯网络、无向图概率模型、因果网络等。网络模型是处理和分析高维大数据和多源数据库的有效工具。目前已经有丰富的图模型的软件系统。网络图模型可以用于分解大数据集合,处理多源数据库,来进行计算。它还可以引入隐变量简化复杂的关联联系。最终确定并能区分该目标节点的原因与结果。

 

结论:一个新生事物的出现会导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的己近消亡。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。统计学会不会像科学哲学那样,只佩戴着历史的光环,而不再主导和引领人们分析和利用大数据资源。大数据充满了许多的随机性。现在看到的大数据也给统计学带来了机遇。

 

现在其他学科和行业的涌入大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险。分布式的大数据和数据流的环境给统计学带来了挑战。统计学家不应该固守传统数据的环境,必须积极学习新生事物,适应新的大数据环境,扩展统计学的应用领域,创造出应和大数据的新的统计方法。机遇和挑战并存。

 

  作者:张昕鑫 来源:企业导报 20158

上一篇:基于现代统计学理论与实践研究

下一篇:统计学在铁路施工项目中的应用