大数据与政府数据管理
21世纪是数据信息管理大发展的时代,2011年5月,在“云计划相遇大数据”为主题的EMC World 2011会议中,EMC抛出了大数据的概念。本文从详细介绍大数据入手,分析了政府数据管理中不利于大数据应用的问题,并提出了一定的解决办法,以期推进我国政府管理的大数据建设。
1.大数据的概念
目前,国内外没有统一的大数据概念,一般是指大小已经超出了传统意义,一般的软件工具难以捕捉、存储、管理和分析的数据。“大数据”之“大”并不仅仅在于其“容量之大”,而是指在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。大数据通过对海量数据进行整理、分析,获得有巨大价值的产品,或深刻的洞见,最终形成变革之力。
大数据拥有四大特征:
第一,大量(Volume)。2012年、2013年产生数据量总和是人类有历史以来到2011年产生数据量的总和,两年的数据量等于一万年的总和,这个数据规模为1.8ZB。这表明互联网时代的社交网络、电子商务与移动通信把人类带入了一个以“PB”乃至“EB”为单位的新时代。
第二,多样(Variety)。大数据有网络数据、企事业单位数据、政府数据,有网络数据自媒体数据(比如社交网络、博客、微博等),有日志数据(比如搜索引擎,大家上网等等都会留下很多足迹),还有富媒体数据(视频、音频等等),相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,这些多类型的数据对数据的处理能力提出了更高要求。
第三,价值(Value)。被称为“大数据时代预言家”的牛津大学网络学院互联网研究所治理与管理专业教授维克托·迈尔-舍恩伯格说:“大数据的核心就是预测,不是要教机器像人一样思考,而是要把数学计算运用到海量数据上,来预测事情发生的可能性”。预测,作为大数据的核心力量,早已被多次证明。2009年,Google曾用大数据分析5000万条美国人频繁检索的词汇,将之和美国疾病中心在2003-2008年间季节性流感传播时期的数据进行比较,准确预测当年的流感趋势,甚至可以具体到特定的地区和州。
第四,高速(Velocity)。1秒定律,这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
简单地说,大量化、多样化、快速化以及价值密度低就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。
2.政府数据管理三部曲
党的十八大报告首次提出“四化同步”战略,将信息化提升到国家战略高度,如果地方政府、各部门采取“鸵鸟政策 ”,不去了解虚拟世界,不会运用移动互联网信息技术,不懂得大数据概念。这样既不符合中央要求,也不符合时代的要求,只能让我们在时代发展中步步落伍。
哈佛大学商学院达文波特说:大数据及其分析,将会在未来10年改变几乎每一个行业的业务功能。任何一个组织,如果早一点着手大数据的工作,就可以获得明显的竞争优势。数据被视为科学的度量,知识的来源;没有数据,无论是学术研究,还是政策的制定,都将寸步难行。那么作为政府部门该如何进行数据管理呢?
2.1数据收集
我国是一个人口大国,也是互联网大国、手机大国,但很可惜,却是一个大数据小国。《“大数据”》的作者徐子沛认为,这是因为我们收集数据的意识比较差。在技术层面,我们与美国等国家差距并不大。但由于缺乏“大数据”意识,很多数据得不到收集和存储,也就无法有效利用。政府部门在运用大数据时首要任务就是建立收集网络,收集大数据。根据麦肯锡的数据,我国2010年新增的数据量约为250拍,不及日本的400拍、欧洲的2000拍,与美国的3500拍更是相去甚远。
我国才刚刚开始试水大数据战略,可借鉴国外收集、管理、利用数据的先进经验,改进政府的决策,提高工作效率。而美国在这方面已经形成了一套完整的规范,值得学习。
比如美国的交通安全管理局作为美国联邦政府最早大规模收集数据部门之一,在1966年起就开始在全国范围内收集交通事故记录虽然一起交通事故的数据可能是无序的,一年的数据、一个地区的数据也无章可循,但随着跨年度、跨地区的数据的累积和增多,群体的行为规律就会浮出水面,可以通过挖掘这些数据,制定合理政策,避免交通事故的发生率。
数据源主要是收集三种类型的数据:
业务管理数据:以基层上报、被动接收下级部门和各类社会组织数据。我国卫生部在2006年制定了第一套最小标准数据集。而美国现在的很多行业都有着这样的统一“最小数据集”,2011年美国已拥有1万多个这样的系统。
民意社情数据:投入人力、财力主动收集单个公民或组织数据。我国国家统计局于2006年正式成立了社情民意调查中心,并于2013年11月,与百度、阿里巴巴、卓创资讯等11家企业签订了大数据战略合作框架协议。2014年初,与卓创资讯联合发布流通领域重要生产资料价格,这被视为拥抱大数据的重要举措。
物理环境数据:以传感器自动采集自然环境、动植物、物体数据。对此数据的采集,我国更是落后,直到2010年物联网的技术开始在铁道部、交通部得到应用。
2.2 数据分析
进入大数据时代之后,个人的社会行为很多都被数字化,如个人网上浏览记录、消费记录,通话记录等等,这些数据足以勾画出一个人的主要社会活动图像,并由这些活动图像对个人的行为特征进行分析。大数据的意义不在于庞大的数据信息,而在于对其中有意义的数据进行专业化处理,只有通过分析才能获取很多智能的、深入的、有价值的信息。例如,生活在美国明尼苏达州的一位父亲与15岁的女儿购物后。回家发现商品中被加入了很多针对婴儿孕妇商品的广告,怒气冲冲地跑到超市投诉。两周后,父亲向经理道歉,这时他才知道自己女儿已经怀孕近两个月。而超市就是通过数据分析公司根据她女儿近期所有购物数据预测出该顾客怀孕,这就是大数据洞察人的方式。
分析的首要前提是让看起来不相关的数据真正地关联起来。其次,让这些不会说话的“盲数据”活起来。只有这样才可以及时掌握社会经济发展、公共服务职能运行状况,才能为政府科学决策和提升执政能力提供很好的支撑保障。比如城市化的进展给我们带来了现代化生活的同时,也带来了诸如环境的污染、交通的堵塞、能耗的增加等等很多问题。在过去因为城市的设置过于复杂,要解决这些问题很难。但是今天,传感器技术的发展和云计算的成熟,产生了大量的大数据,社交媒体数据、气象数据、交通数据、地图数据等等,如果我们使用得当的话,这些大数据就能引导我们发现问题,并进一步解决问题。比如空气质量问题,我们就可以通过收集空气质量监测站的关于气象条件的数据加上交通数据、人口、餐厅、公园等等数据,建立一个地方的数据库和这个地方空气质量的模型,这样我们就可以算出这个地方任何一个角落的空气质量。我们就知道我们什么时候可以出来散步,什么时候小孩子可以出来玩,同时这也是进一步解决空气污染的前奏。
我国经过20多年的电子政务建设,政府的管理信息系统及数据的采集处理几乎覆盖各业务部门和主要公共服务,政府掌握着大量的、关键的数据,那些沉睡在档案袋、文件夹中的数据,有着无比巨大的价值,能产生惊人的效用。比如,某导航公司将上海公开的2万多条地理位置信息用于地图编制与更新,服务了上亿用户。
但是,这些数据应用是极少一部分,政府掌握的绝大多数数据处于休眠状态,如何让这些“盲数据”发挥出活力,是“大数据”时代我国政府面临的关键问题。而我国现有的政府部门的数据犹如一个个信息孤岛,数据缺乏统一的格式,数据交换缺乏统一的标准和平台。不用说跨部门之间的信息交换,即便是同一部委,不同业务部门的数据交换也存在障碍。尽管我国为了提升电子政务发展水平,实施了“十二金”工程,但数据孤岛在我国当前政府部门的信息化系统之间是一种普遍现象,这从国际上公认衡量各国信息化发展水平的全球电子政务发展指数(EGDI)上面也能体现。近十年,我国EGDI排名先升后降,从2003年第74位升至2005年第57位,2012年跌至第78位。
不过互联网和移动互联的普及,已经在形成一种态势倒逼政府的科学决策,更是对政府执政能力的考验。我们不能确定这股数据浪潮究竟何时会给政府的数据应用带来根本性的改变,但我们已经看见这种趋势已经在渐渐形成。对于政府部门而言,为了迎接以数据分析为支撑的科学决策的到来,我国先后制定了多项政策,《“十二五”国家战略性新兴产业发展规划》中,“智能海量数据处理相关软件研发和产业化”(大数据技术)被列为重点发展技术方向之一。此外,我国发展大数据的产业环境也日渐成熟。2013年8月14日,国务院发布《关于促进信息消费扩大内需的若干意见》(以下简称意见),赋予信息消费拉动经济增长的重要使命。随后紧接着推出的“宽带中国”战略,更是为大数据发展提供了良好的基础网络环境。当然在管理上,在人才上,在法律上,在产业支撑环境方面等等,我国政府还有太多的课要补,从认识到“大数据能产生价值”,到实现了“从大数据中找到价值”,再到“有效使用大数据产生的价值”,这是一条漫长的道路。
2.3数据发布
2007年4月耶鲁大学法学院教授丹尼尔·埃斯蒂,曾分析过信息开放对美国政府改革的重要性:
“尽管信息时代的技术进步已经彻底改变了商业领域和体育运动领域的决策过程,但联邦政府对这些技术的应用还仅仅处在一个开始的阶段。要实施‘数据驱动的决策方法’,不仅要使用新的技术、还要改变目前的决策过程。一旦打破这些障碍,将从中获益:政府将更有效率、更加开放、更加负责,引导政府前进的将是‘基于实证的事实’,而不是‘意识形态’,也不是利益集团在决策过程中施加的影响。”
2.3.1政府部门通过对数据的发布接受社会监督。美国著名的大法官路易斯.布兰代斯有一句名言:“阳光是最好的防腐剂。” 面对公共信息,奥巴马在签署第二份总统备忘录《信息自由法》时强调,“当我们有所怀疑的时候,公开是第一选择。我们不能因为公开可能导致我们的官员陷于难堪的境地,或者会暴露我们的错误和失败,或者因为莫名的担心和害怕,而把信息打上‘保密’的标签”。可以说这份备忘录的签署,不仅在美国联邦政府的各部门刮起了“透明和开放”的旋风,而且波及全世界很多国家。政府数据的发布在一定程度上可以制约权力滥用,如果把政府公权力的行使由个别人、少数人知情变为多数人知情,就能规范行政行为,消除暗箱操作,把腐败的发生率降到最低。唯有此才能做到“权为民所用、情为民所系、利为民所谋”。近年来,我国教育部实现网上招生录取,录取信息网上查阅。政府部门“三公”经费的公开等等,都有效防止了腐败现象的发生。
2.3.2鼓励民间介入。在网上发布数据,将会吸引一大批对这个问题感兴趣的各界人士参与到政策制定的过程中来,将会使所有的问题都无所遁形,更多的问题将被发现,更多的细节将被讨论,更好的方案将会被激发。据介绍,美国联邦政府建立了“”网站,开放一些公共数据并鼓励挖掘。截至2011年12月,该网站共有3721项原始数据、386429项地理数据、1570个数据可视化应用。人们可以从这些数据中找出空气质量与工厂数量、胖子数量与快餐店多寡等关联。这对经济、环保等领域的研究有着非凡的意义。
2.3.3推动政策复制。通过发布这些数据,一项具体政策的执行效果能够被量化,各省之间很方便进行“事实对比”,新的政策如果有效,很容易在全国范围内被接受、复制并推广,形成一种良性的“政策竞争”氛围。《“大数据”》有一个这样的案例,1980年开始,美国个别州开始实施驾驶人员必须佩戴安全带的规定,但随后收集到的数据却表明,实施同样规定的州,死亡率的下降幅度却各不相同。这个数据之差引发了联邦政府对全国的执行情况进行检查和对比。后来发现,效果明显的州,警察有权力随时截停车辆、检查司乘人员是否佩戴了安全带,而效果不明显的州,仅仅规定警察只能在以其他理由截停车辆时顺便检查车上的人员是否佩戴了安全带。这个发现,后来引发了多个州执法方式的改变。
2.3.4提高管理能力。通过数据整合和运用提高管理能力,是目前世界各国的通用做法。在西班牙首都马德里,整合警察、消防、医疗系统,使救援时间大同度缩短;在新加坡,智能交通综合信息管理平台在预测交通流速和流量方面有高达85%的准确率。在美国,加州大学的人类学和数学家共同建立了犯罪活动预测平台。在不增加警力的情况下,洛杉矶的财产犯案率和盗窃案件分别下降了12%和16%。
中国工程院信息与电子学部主任、中国计算机学会理事长李国杰院士的课题组,提出我国政府开放数据的六项原则:
开放原则:政府信息资源以共享为原则,不共享为例外。注意开放与保护隐私的平衡。
保障安全原则:根据安全等级确定数据共享的范围。
价值导向原则:开放的政务数据资源应具有经济价值和社会价值,共享的目的是促进数据资源的利用。
质量保障原则:内容完整可信,数据格式方便使用,内容及时更新。
责权利统一原则:政务数据拥有部门承担数据开放的责任,依法明确可开放数据的范围。用户对下载后数据的使用行为负责。
数字连续性原则:被开放的政务数据资源应维护其数字连续性,可检索、可呈现、可理解、可被发现,保证可持续再用。
在某市《政府信息资源共享管理办法》中,写到“行政机关未经提供信息的行政机关同意,不得擅自向社会发布和公开所获取的共享信息”。如果是无条件开放的数据,为什么不能再公开。对于“无附加条件共享”的政府数据,应实行“非限制即共享的原则”。尽管有识之士已经意识到大数据的竞争力和战略性,但数据财富尚未形成全民意识,我国应迎头赶上“大数据”这一时代潮流。
作者:李鹰 来源:管理观察 2014年29期
更多论文请到千里马论文发表网
上一篇:高校图书馆科研数据管理研究
下一篇:城市GIS三维数据管理方法浅析