新闻媒体信息数据库建设实践及其应用
新闻媒本是信息传播的重要载体,是报道社会经济、政治文化的主要渠道。随着计算机和网络技术飞速发展,新闻媒体信息网络传播己成为新视点,各新闻媒体注重媒体信息的电子化,相继推出网络版,这不仅方便了媒体信息的网络传播,加速其信息的传播力度,同时也为建设新闻媒体数据库提供了方便,促进了新闻媒体信息数据库的建设与发展。
1.新闻媒体信息数据库的发展现状
国外新闻媒体信息数据库建设起源于20世纪70年代1%最初是由通讯社、报社等新闻机构的资料室为编辑和记者服务建立的新闻资料管理系统,功能主要限于本单位的工作需要。随着该系统功能的不断完善,管理软件的升级,建库资料日益规范,网络技术和网络发布系统发展,特别是媒体信息需求客户的增加,使得原来单一的内部管理软件逐步发展为综合的新闻媒体信息数据库,出现了一大批以经济服务、社会服务为目的的新闻媒体信息数据库服务商,大规模开发产品,形成产业化。目前,世界著名的新闻媒体信息数据库服务商有Factiva,ProQuest,LexisNexis慧科等,以Factiva为例,它是由美国道琼斯与路透集团合资成立的合资公司,是世界一流的全球性新闻内容提供商,它将DowJoheslnteractive和ReutersBusinessBriefing两大资源库的9000多种新闻媒体信息整合在一起,提供118个国家22种语言出版的重要媒体信息,影响相当广泛。
我国新闻媒体信息数据库起步相对较晚,起于20世纪80年代,且规模较小,档次也较低,虽然各主流媒体都有自己的网站,并在网上发布电子版信息,但发展成为专门媒体信息服务产品还比较少,产业化更无从提起。目前我国较成功的商业新闻媒体信息数据库是由新华社和北京电讯工程学院合作开发的《新华社多媒体数据库》TRS与人民日报社合作开发的《媒体全文按词检索数据库》以及CNKI的《中国重要报纸全文数据库》。就图书馆而言,开发建设媒体数据库主要有三家:分别是广东中山图书馆开发的《决策内参》系列产品,广州大学图书馆的《媒体眼中的广州〉〉全文数据库,以及温州市图书馆的《媒体看温州》数据库。
2.新闻媒体信息数据库的特点
新闻媒体信息数据库不但有着一般数据库的共同技术要求,而且有其自身的特点:
2.1数据库信息采集量大
新闻媒体本身分布广,就报纸而言,全国各类报纸2005年有1926种14],所承载的信息以海量计算,从浩瀚的信息海洋中进行信息采集,是一个十分繁杂的过程,在当前信息自动采集系统功能还不完善的情况下,单凭人工采集,无论是工作量,还是信息的采全和采准率都是一个相当大的挑战。
2.2信息时效性强
新闻媒体信息时效性很强,许多信息需要及时采集、加工、发布甚至打印到服务对象手中,如广州大学图书馆《媒体眼中的广州》全文数据库(以下简称《媒体广州所开发的产品《每日新闻要目》,就需要将每天关于广州报道的各类信息进行采集、加工、发布,以保证用户当天能看到即日的舆情信息。
2.3信息专题性强
新闻媒体海量信息决定了搞综合性数据库难度很大,一些科研院所、新闻单位更多选择专题性数据库。基于需求对象不同,确定数据库信息采集范围,有针对性的加工,最终提供满足客户需要的信息产品。《媒体广州》就是针对10多个不同的服务对象,开发出10多个服务产品,并定期为广东省公安厅、广州市市委宣传办公室、广州市公安局、南沙开发区指挥部和番禺区委宣传部、省档案馆等单位呈送。对于一些大事或突发事件,及时制作专题新闻汇编,满足客户需求,如“抗非典”、“申办亚运”、“留交会”、“服装节”、“穗港合作共同发展”、和“首届泛珠三角省会城市市长论坛”等。
2.4信息内容的时事性
新闻媒体信息一般是对当前政治法律、社会经济以及科教文卫体等领域的新闻报道,具有快、准、简特征,其内容时事性强,反映的是当前社会发生的一些热点事情,受时间、地点、环境所制约。基于时事性特点,按今年颁布的《信息网络传播权保护条例》对时事性网络信息传播权的规定,其信息内容不受版权制约,信息利用具有合法性。
3. 基于TPI15]的新闻媒体信息数据库建设
TPI是基于非结构化文档管理而开发的大型智能内容管理系统,该系统以全文检索数据库(FTS)为核心,采用流行的B/S浏览器的检索方式和先进的三层C/S架构,能够同时管理文字、图片、多媒体等信息,并提供全文检索服务,支持网页的动态发布,是一个面向内容管理的应用、管理和信息发布工具。
TPI包括数据采集系统、数据加工系统、数据发布和输出系统、数据检索系统等。
3.1数据采集
TPi数据采集分为两种形式:一是网上媒体信息采集。利用新闻媒体电子版和网上媒体信息发布平台,米集确定主题的媒体信息;二是E—BOOK系统米集。一些媒体信息无电子文档,需要进行电子化处理,E—BOOK系统可以把报刊、书籍、公文等各类纸张文档,通过扫描、图像处理、灰度二值叠加加工、目录树加工等过程简单快速地形成电子文档,它支持WORD、PDF、HTML、PS系列、S系统、TXT、PPT等文档格式的转换,支持PDF格式输出。电子文档采集成功后,“采集员”按数据库著录格式进行每个字段的录入,字段包括题名、作者、信息来源、发布日期、版次信息、文摘、备注等,在实际操作过程中,可依数据库的功能要求确定著录字段,其著录格式以图书著录规则为准。因新闻媒体信息数据库字段相对简单,一些著录可自行约定,如《媒体广州》只著录题名、信息来源、发布日期、版次信息等,在对题名著录时,因系统无副题名字段,故凡有副题名者,直接将副题名著录在主题名之后,并用破折号隔开。
在数据采集时,因各种自动采集软件或多或少存在着缺陷,在采全与采准两个都兼顾的情况下,实际操作性较差。虽然人工采集劳动量大,但相比机器采集,人工采集可靠性高,采全与采准率都有一定的保障,实际操作也比较可行。当然,人工采集存在主观性因素干扰,受“采集员”综合素质所制约。
就整过建库流程而言,数据采集是媒体数据库建设中的一个重要环节,它起着数据质量控制作用,其采全率和采准率是评价数据库建设质量的最主要指标。
3.2数据加工
一条采集的数据要经过数据加工,才可以正式进入全文检索服务器(TS)进行发布。数据加工包括三个方面的内容:数据检查、数据标引和数据分类。
数据检查是指对提交数据的真实性和准确性进行质量控制,这一操作在数据加工系统中实现。“采集员”采集信息后,进入预提交过程,由“检查员”负责对采集的信息进行筛选,因概念理解偏差,采集时一些无用或相关度不高的信息往往也被采集进来,需要进行审核。别外,一些提交的数据还会出现信息著录的错误,无论是网上HTML格式文档录入,还是E—BOOK工具转换文档,都可能存在数据失真现象。“检查员”需对出现遗漏和错误的地方进行补漏和修正。
一条记录一旦通过检查,则把该条记录标记为“记录正确”,此记录被锁定,处于不可编辑状态;反之,若记录有误,则下次登录后会看到该记录提示的错误信息,直到修改后标为“记录正确”为止。
TPI数据标引支持WORD文档、NH文档、HTML文件、KDH文件、TXT文件等文件类型的标引工作,采用可视化操作,直接从原文中选择需要的内容。数据标引存在两种方式:一是通过原文进行标引,对各文件类型记录通过在原文中选取相应文字进行标引;二是通过编辑记录进行标引,对于不能通过原文进行标引的记录,可选择“标引记录/编辑记录”菜单,直接在“记录编辑”对话框中编辑字段即可。
数据分类是利用可视化的操作界面实现数据分类的过程。TPI数据分类工具提供有标准的《中图法》分类体系,也可采用自定义分类体系,如《媒体广州》将信息分为政治政法、社会、经济、城建、科教文卫体和其它等六大类每一个大类下再设多级子目这种分类体系取决于用户单位的实际需求。一般而言,新闻媒体信息数据库以其新闻报道特有的形式和用户群的需求类型,决定其数据分类时无需采用《中图法〉〉等大型分类体系标准,甚至可不进行分类,“以TPMS大的检索功能,完全可不采用分类号检索”。
TPI数据加工的工具是通过TCP/P协议连接到FTS的,在对分配任务进行操作时,数据加工与FTS可以不在同一台计算机上运行,满足远程工作和多机运行模式,从而大大提高了数据加工的效率。
3.3数据发布与输出
数据加工完成后,可以利用TPI的“内容发布工具”的“WEB发布向导”功能进行网上发布,TPI的内容发布系统(CPS)提供两种发布模式,包括通过客户端管理工具发布和通过WEB发布。两种发布模式都能自动完成,无需人工干预,即发即得,立即生效。
在数据发布时,可选择不同的发布模板,CPS提供包括CNKI、GOOGLE、FI、OCLC和图片等不同的风格模式,《媒体广州》就采用CNKI期刊风格模式。
CPS功能强大,支持角色管理和用户管理,提供屏幕设计工具,建立多种导航树以及数据库记录之间关联、跳转。为体现人性化设置,支持自定义发布模式,可进行字段的发布选择设置,字段颜色与字体设置,字段的访问权限置等。在字段的发布选择设置中,可详细设定检索字段、细览字段和概览字段等。为满足数据输出需要,TPI有完善的输出系统,可按用户需求进行整体或部分甚至是专题内容的输出。
3.4数据检索
数据建库的一个主要目的是要实现网上共享使读者可以检索和利用,TPI采用IR(InformationRetrieval)技术和元搜索(Meta—search)技术,具有全文检索和分布式检索功能。
全文检索采用基于分词的策略,可以同时对词和非词进行检索,其功能主要包括数据库单库检索、跨库检索、视图检索、二次检索、高级检索等检索方式,提供and、or、not逻辑操作。在检索项上,分别有题名、关键词、作者、信息来源、日期以及文摘等各库检索项的多少由数据发布风格以及发布设置来决定。分布式检索是把分布不同地理位置的独立自主的多个TPI数据库服务器联接成为一个集群系统,这个集群系统中的数据库在逻辑上是一个数据库,对用户是透明的。分布式检索提供跨服务器、跨平台的分布检索形式,用户通过该系统可以极大共享整个集群数据库中的信息,实现分布式、多层次、多类型、特色性的资源共享。
4.新闻媒体信息数据库的应用
4.1立足地方,为地方社会经济发展服务
新闻媒体信息数据库建库可立足于地方,与本地特色相融合,建设具有地方特色的数据库,通地对本地政治、经济、文化发展等主题信息收集,及时加工反馈给地方决策部门和相关单位,使其能及时掌握一个全面的媒体信息,通过熟知与本地相关的各方报道,促进其决策的科学性,及时处理民事民意,有利于解决社会矛盾,创造和谐社会。
4.2进行深层次信息开发,提供舆情分析
依托己有的新闻媒体信息数据库,可以进行深层次的信息开发,将各方信息汇集提炼,形成舆情分析报告,可为地方政府及相关单位把握舆情信息,并为引导舆论,营造和谐舆论环境提供建设性意见。如广州大学图书馆利用《媒体广州》数据库平台,进行深化信息开发,向广州政府以及部分企事业单位提供《海外英文媒体涉穗新闻分析》和《港澳台涉穗新闻舆情分析》等,取得了良好的效果。
4.3开展客户研究,提供个性化信息服务
开展媒体信息服务要进行客户深入研究,了解客户需求信息和自身特点,从信息采集开始把好关,制定客户服务专案,通过协商进行调整,从而完成个性化服务方案的制定。
同时,对客户研究除了己有客户外,还应对潜在用户群进行研究,通过宣传推广扩大服务市场。新闻媒体信息数据库建设是为了对外服务,忽视使用效果,为建库而建库,是对人财物资源的极大浪费,所以积极拓展用户群是数据库生存和发展的首要任务。
5. 结语
图书馆建设新闻媒体信息数据库,因牵涉面较大,投入也较高,在建库前,要基于本馆性质、服务对象、社会责任、用户需求等因素进行认真分析,反复论证,“不能图新鲜,不能拍脑袋,不能盲目不能攀比,不能一哄而上7],最好是采用合作意向性建库,所谓合作意向性建库,就是要先谈定部分用户单位,在具有经费支持的情况下才进行媒体数据库的建设。在具体操作上,可借鉴广州大学图书馆建库模式,广州大学图书馆与广州市市委宣传办合作,先达成部分用户的使用意向,然后起动建库方案。数据库建库以科研方式立项,将媒体数据库建设定位为横向科研课题研究,各用户单位将协议经费纳入学校科研经费管理,图书馆按照科研经费管理办法对之进行支配,这种模式不仅易操作,在具体实践中也得到各方的认可。
下一篇:新闻资料数据库的建设与应用