数据密集型科学环境下的情报服务与发展
大数据时代的到来,使得学术活动的信息数据来源、组成、价值以及处理技术都发生了巨大变化,数据就如传统价值认识中的“黄金”一样,变得无比重要和价值巨大[1],这些变化也影响到了学术信息的交流环境,使得科学研究向数据密集型科研转变,越来越多的科研工作是基于现有数据的重新分析、组织、认识、解析和利用,数据成为了科学研究的基础。虽然说从目前来看将数据比作“金矿”有夸大之嫌,但也充分的说明了数据的重要作用与价值。同时,我们也看到,在这种数据密集型科学环境下,变化的不只是科学研究,一些服务机构特别是信息服务机构的服务内容、服务方式也在悄然发生着变化,对能为用户创造价值与创新的科学数据日益重视,基于数据的服务也成为了它们的服务增长点,对新型科学环境下的服务发展学术研究也正在如火如荼的进行之中。基于此,本文从数据密集型科学环境出发,对科学研究的第四范式、数据密集型科学环境的形成与推动因素进行了概述,重点对数据密集型科学环境下的情报服务内容进行了陈述,同时也对情报服务的发展途径如数据建设、人才建设、协作机制建设进行了分析。
1 数据密集型科学研究兴起的社会环境
2007 年,Jim Grey在美国国家研究理事会计算机科学和远程通讯委员会( NRC- CSTB) 的演讲报告中首次提出了以数据密集型计算为基础的科学研究“第四范式”概念[2],并将其作为与实验科学、理论推演、计算机仿真三种科研范式平行的科学研究[3],但在对科学研究范式的发展及划分简单论述后,并未对第四研究范式的内涵、科学研究现状等进行深入论述。直到2009 年, 微软公司的TonyHey、Stewart Tansley和Kristin Tolle主编的《The Fourth Paradigm:Data- intensive Scientific Discovery》(第四范式——数据密集型科学发现)一书,才较为详细的登载了第四范式的内涵和意义等内容,并从地球与环境、健康与幸福、科学基础设施、科学交流四个方面展示了69 位学者从不同的视角观察、理解、分析和探讨[4]。
对数据密集型科学研究来说,科学研究第四范式强调传统的假设驱动将向基于科学数据探索的科学方法方向转变,并在这种数据的转变与方法实现中,数据依靠工具获取、分析与处理,依靠计算机存储。笔者认为,大数据时代的来临,数据的来源、类型、存在形态将异常丰富,可以是实验观察数据、实验数据、仿真数据、互联网数据,也可以是产生于智能终端如智能手机、社交活动如微博、虚拟社区中的信息行为数据等;类型和存在形态可以是已经可以灵活保存于数据库、机构库中的结构化数据,也可能是目前只能通过路径记录、现场拍摄才能记录的半结构化数据、非结构化数据。
从数据密集型科学研究的兴起与形成来看,数量庞大、类型丰富、价值巨大的数据产生即大数据时代的到来以及一方面产生数据、一方面又能实现对数据管理与应用的现代信息技术更新、发展是数据密集型科学环境兴起与发展的根本推动因素,而信息爆炸、关联数据运动、数据开放运动等直接推动数据密集型科学环境成熟的运动也都功不可没。
2 数据密集型科学环境下的情报服务
2.1 科学数据服务
2012年6月,美国大学与研究图书馆协会出版了《学术图书馆与科学数据服务》白皮书报告[5],该报告调查了美国和加拿大的大学与研究图书馆协会的351所成员馆的科学数据服务情况,结果显示尽管目前只有少数美国、加拿大的大学与研究图书馆协会成员馆开展科学数据服务,但也显示许多高校图书馆准备在未来一到两年内开展科学数据服务。这说明在当前的数据密集型环境下,开展科学数据服务将成为情报服务的主要组成部分。数据密集型环境下的科学数据服务,既可以借鉴普渡大学图书馆的D2C2分布式数据保存项目[6],开展诸如情报咨询、科学数据管理、科学数据查找服务,也可以借鉴澳洲国立大学依靠超级计算机设备进行的存储服务[7],提供大量范围内的数据存储、数据标注服务。且相信随着技术的发展与用户的需求变化,在未来的情报服务中,诸如科学数据的开发、发现、引用、标识、分析及技术支持等更大范围的数据服务都将会实现。
2.2 数据发现服务
产生于大量智能终端、社交网站、活动场所的海量、复杂的半结构化数据、非结构化数据的出现,使得传统的情报服务中的数据处理与数据服务变得困难,如何在数据密集型的科研环境下为用户提供数据的发现服务,成为了数据密集型科研环境下的主要情报服务内容之一。Web、本体、XML、RDF、标签等技术的出现,使得数据资源的共享、检索、标注与利用更加便捷,实现系统化、语义化、网络化、自动化的数据发现服务成为了可能,在以谷歌为代表的IT数据发现服务带领下,业界掀起了基于数据发现服务的数据发现服务系统开发热潮,国内外研发了一批基于语义扩展搜索的数据发现系统,如ExLibris公司的Primo、EBSCO公司的EBSCO Discovery Service(EDS)、Innovative Interfaces公司的Encore等,OCLC的一站式知识资源发现与服务系统Worldcat Local,提供了全世界近2万个图书馆的馆藏纸质资源和部分数字资源的信息共17亿条[8]。在数据密集型科学环境下,数据发现服务不仅能为用户发现和关联可能存储于社会各个行业、多个领域、多个学科的数据知识,也能为用户发现数据表面、少量数据不易于发现的价值,进而为用户的市场预测、信息行为等做出态势分析、前景判断提供知识与数据支撑。
2.3 知识咨询服务
一直以来,信息咨询服务都是情报服务的主要组成部分,也为企业信息分析、情报收集等工作提供巨大的参考与帮助作用,得到了情报服务用户的高度认可。但在数据密集型环境下,由于提供咨询服务的数据来源、类型、处理平台、服务方式都将发生巨大变化,传统的咨询工作并不会满足用户的需求,因而依赖于海量知识、依靠数据分析系统、为用户提供解决问题知识的知识咨询服务将应运而生。与传统的信息咨询、参考咨询相比,知识咨询服务更具专业化、知识化以及实现多样化等特点,即需专业的服务人员借助专业的服务平台实现对专业学科资源的专业分析,用知识服务平台实现对知识资源的知识处理并提供用户知识产品,用多样化的技术手段来处理多样化的数据进而通过多样化的途径提供多样化的服务。由于知识咨询以用户的知识需求为出发点,以复杂的海量数据为知识来源,以面向大数据的分析、挖掘软件为工具,以向用户提供最终可以解决问题的知识产品为目标,因此,知识咨询将在数据密集型科学环境下广泛的用于企业情报收集、政府决策分析、个人科研创新等领域。
2.4 学科服务
数据密集型科学环境的兴起与发展,使得存在于社会每一个角落的各类数据以及产生于每一个实验、调查等科研活动的相关数据都可能成为知识创新与科学研究的主要知识来源,但对这些数据、知识的组织与利用并不一定因为科研人员信息素养的水平差异而能成功实现,于是,一些科研院所、大型科研团队日益重视科研队伍建设时的图书馆员等能灵活检索和运用数据资源的团队组成比例,国外兴起的数据监管教育就是顺应这种科研人才队伍的需求而产生的,这类人员的主要职能是利用专业的学科背景知识,运用掌握的信息素养知识,为科研团队提供专业的学科服务。在未来日益发展的数据密集型科学环境下,这类学科服务将突破目前的第一代、第二代学科服务形式,即图书馆领域的设置学科馆员形式与嵌入式学科服务形式,出现情报服务机构与科研团队合作形式,进而为科研活动提供更为专业、有团队协作保障的学科服务。
2.5 数据云服务
云计算的发展以及Google、亚马逊等云计算服务提供商多种云服务平台的推出,为情报服务的云服务实现提供了便捷条件。由于云服务是将分布式计算、网格计算、并行计算以及Internet结合起来的一种新兴的IT资源提供模式,实现了将动态、可伸缩的IT资源以服务方式通过互联网提供给用户[9],因此,情报服务对于云计算的应用并不需要昂贵的硬件设备、专业的技术人员以及种类繁多的软件操作平台,只需要根据自己的用户需求特征来租用合适的云平台及服务,以通过云计算虚拟技术而实现在云计算的技术支撑环境下提供数据的上传、下载、运算等服务。云服务的模式主要有IaaS(Infrastructure as a Service,基础设施即服务)、PaaS(Platform as a Service,平台即服务)、SaaS(Software as a Service,软件即服务)等三种模式[10]。从目前的云计算服务提供商来看,情报服务的云平台既可以选择Google和Amazon等云服务提供商提供的云平台,大型服务机构也可以借鉴OCLC与美国国会图书馆通过自建云服务平台来实现对用户的云服务。
2.6 数据分析服务
在数据密集型科学环境下,不管是对用户提供诸如上述的科学数据、知识咨询、数据发现等服务,还是可能出现的如用户定制的数据关联、数据发布等服务,数据分析都将是其实现的主要组成部分,只不过常态的科学数据、知识咨询等服务,情报服务机构的依赖资源是云数据、机构存储数据与购买数据等,即主要以社会或机构公有数据为主,但用户的个性化定制如数据关联等服务可能主要以用户个体私有数据为主。同时,需要注意的是,数据密集型科学环境下的数据分析,需以一些系统平台和技术为支撑,如当前运用较多的可视化技术、数据挖掘与语义处理等。
3 数据密集型科研环境下的情报服务发展
3.1 重视对数据资源建设与价值挖掘
IBM的《分析:大数据在现实世界中的应用》白皮书认为数据是大数据时代业务发展的主要驱动因素之一[11],一些IT业发达的国家如美国、印度等近来出现了一批以数据的获取、聚合、加工为盈利手段的企业,由此可以看出数据在业务发展中的价值,对于提供以数据为知识来源与主要业务实现基础的情报服务来说更是价值巨大。情报服务机构如图书馆、情报研究所等应认清数据在未来情报服务中的重要性,提高数据收集意识,一方面,对现存结构化数据进行关联、标注、索引等分析与重组处理,实现数据的关联化、语义化,以为数据的发现与关联打下基础;另一方面,注重隐藏着巨大价值但目前收集几乎空白的非结构化数据、半结构化数据的建设,为将来的情报服务提供丰富的数据保障。
3.2 重视对人才队伍的建设与培养
《中国大数据技术与服务市场2012-2016年预测与分析》报告认为“大数据相关人才的欠缺将成为影响大数据市场发展的一个重要因素”[12]。IDC认为中国大数据技术与服务市场将会从2011年的7760万美元快速增长到2016年的6.16亿美元,同时麦肯锡 (McKinsey)也认为到2018年,美国需要14~19万名具有“深度分析”经验的工作者,以及150万名更加精通数据的经理人。而多种数据显示这类工作人员非常稀缺,如著名的国际研究暨顾问机构Gartner就认为只有1/3的新的工作岗位能雇佣到熟悉大数据技能的IT专业人员[13]。人才问题同样也会影响到未来数据密集型科学环境下基于大数据的情报服务,因为对数据分析、数据发现等情报服务来说,其不仅要有传统情报服务的信息检索、组织等信息素养,还需掌握对大数据的平台分析等技术,更要在学科服务中具备一定的专业知识。要满足这种服务业务的发展需要,情报机构进行人才引进与人才培养是唯一的两条出路,并且需相辅相成,即一方面,引进一些IT服务商的数据科学家、数据工作者以及高校数据监护、数据监管专业的毕业生,另一方面,选择与高校、IT公司合作,进行现有人才的培训培养。
3.3 重视情报服务合作机制的构建
大数据时代的数据特点决定了数据的收集、利用都需以机构间、团队间的合作为基础,因此,在数据密集型科学环境下,情报机构既需要在数据资源上实现互相的共建共享以避免出现资源重复建设,还需在人才培训、技术合作上实现互补,以通过资源共享、机构协作实现用户需求的最大满足。同时,开展校际合作、校企合作也是一个新的发展思路。这些合作机制的建立,一方面将进一步增强数据资源的互补性,拓展数据资源体系范围,充分发挥科学数据的使用价值;另一方面,合作协作也将增强人才队伍实力,为情报服务的开展拓宽了人才队伍知识领域,提高服务能力。
4 结语
大数据时代才刚刚来临,科学研究的第四范式也尚处于日益成熟阶段,数据密集型科学环境的发展还并不成熟,数据的价值也未在诸多领域得到体现,但随着数据密集型科学环境的日益成熟与数据价值的日益体现,情报服务的数据服务价值也会被社会广泛认可,适应用户与社会发展需求的服务内容创新、方向转变更将必不可少,重视数据资源、人才与合作机制建设,迎接日益社会发展步伐的需求挑战,将是情报服务机构抢占先机的关键决策。
作者简介:刘艳红(1969-),女,大连工业大学图书馆副研究馆员;罗键(1967-),男,甘肃省科技情报研究所工程师。
上一篇:环境科学概况及发展趋势
下一篇:环境保护与科学发展