学科信息门户信息组织的优化
为了解决网络信息的无序问题,各种各样的网络信息组织模式得以提出,包括网络信息的微观组织模式、网络信息的宏观组织模式——网络资源指南与搜索引擎、网络信息的重组模式——编目、网络信息的深层组织模式——学科信息门户以及网络信息的分布式组织模式——数字图书馆[1],它们都在一定程度上使网络信息失控的局面有所改观。其中,学科信息门户近几年在国内外发展较快。
“基于学科的信息门户”(Subject Based Information Gateways,即SBIGs,本文简称为学科信息门户)又称为基于学科的门户(subject-based gateways)、学科索引门户(subject index gateways)、虚拟图书馆(virtual libraries)、信息交换所(clearing houses)、学科树(subject trees)和寻路器(pathfinders)等。它曾经是“提供可检索和可浏览的因特网资源目录的联机服务系统,集中于某一相关的学术领域,提供对经图书馆工作人员遴选和按学科组织的因特网资源的利用”。在开放式数字信息服务环境下,“学科信息门户致力于将特定学科领域的信息资源、工具与服务集成到一个整体中,为用户提供一个方便的信息检索和服务入口”。学科信息门户按照某学科(专题)用户的要求对网络中相关的信息资源进行了更有针对性、更深入的揭示,在给用户“指路”的同时提供更专门、更专深的信息检索服务,有助于专业用户在本领域的“信息超市”(information supermarket)中选择高质量的资源和获得“一站式检索”(one-site search)服务,从而保证用户获得“所得即所要”的信息。正是由于学科信息门户具有这些优于搜索引擎的特点,新的学科信息门户近几年在国外不断涌现。在国内,2001年底正式启动的中国国家科学数字图书馆(the Chinese Science Digital Library,简称CSDL)也已建立起图书情报学等多个学科信息门户。笔者拟对学科信息门户的优化策略进行探讨,以期能为已有的学科信息门户的改进与新的学科信息门户的开发提供参考。
1 尽可能全面地收录本学科资源
一个好的学科信息门户所指引的有关资源应尽可能地涵盖本领域重要的资源(涉及资源的内容、时间、地域与语种范围),如表1中的INFOMINE的记录达到了12万余条;收录的资源类型宜多样化,以方便用户对某一专题信息资源的“一站式检索”,即建立一个不仅收录各种形式的因特网资源(网上可以公共获取的全文电子图书、电子期刊、书目、指南、邮件列表、电子公告板、新闻组、机构、会议、专家、学者以及其他网站链接等),而且囊括馆藏实体资源(包括二次文献数据库、全文数据库、馆藏目录、联合目录等)的集成化系统,实现两种资源在同一界面的无缝存取(seamless access),并将其整合为易检易用的有机整体,即“hybrid libraries”(复合图书馆)。基于用户利益而管理的复合图书馆:人文科学复合图书馆的组织管理模型(MAnaging the hybrid LIbrary for the Benefit of Users,简称MALIBU)便是一个成功的范例。
2 严格选择资源
从总体而言,学科信息门户的资源选择必须有一套符合该学科特点、既定用户需求、服务宗旨、规模及经费支持等方面要求的资源选择标准。就单个资源而言,在内容上要注意信息的准确性、权威性、客观性、唯一性、新颖性、完整性与针对性(所指引的网址要尽量接近主题内容,尽量减少用户点击的次数);在形式上要考察信息的格式(是否是标准的或常见的格式,如图像文件的常见格式有.jpeg,.gif等),用户使用的便利性(考虑用户访问本网站采集的资源时所需的硬件、软件和连接方式等要求),导航是否清晰,排版结构的美观程度以及资源的可存取性与可用性(指向的资源地址正确,链接资源的原始网址以便用户访问到最及时和最权威的信息,注意被链接资源的注册要求、收费规则、知识产权声明与特殊服务规则等;优先选择网上免费资源,当网络用户与镜像站点的“电子距离”比原始站点更近时,要链接镜像站点以便于用户进行更有效的存取)。
表1中的ADAM,AHDS,SOSIG,EEVL,EELS,OMNI和MathGuide都强调要选择学术性资源,Biz/ed则注意选择来自非盈利机构网站的资料。SOSIG提供的每一种资源都经过研究图书馆员和学科专家的选择与描述,这些资源有:电子期刊、数字化图书、报告、论文、书目、教育软件、电子新闻稿、邮件列表和重要的社会科学机构的主页。LII选择与评价资源的标准是:选择最适合公众和图书馆用户需求的资源,不收录没有信息内容的纯商业性站点,而且,每一种资源都经过图书馆员对其价值进行的评价。
3 对资源进行高质量的元数据描述
元数据是关于数据的数据,它对信息资源或数据对象进行描述,目的在于使用户能够发现、识别、评价资源,并对相关的信息资源进行选择、定位和调用,追踪资源在使用过程中的变化,实现信息资源的整合、有效管理和长期保存。
学科信息门户对资源的描述应该优先采用国际通用的元数据与标记语言,元数据元素中的“主题”描述要利用国内外着名的分类法与主题词表。例如,澳大利亚要求学科信息门户全部采用已有的元数据标准,如都柏林核心元数据(DC)、MARC和澳大利亚政府查找服务(Australian Government Locator Service,简称AGLS)等元数据以及自己独有的元数据元素进行标引,并支持因特网内容选择平台(Platform for Internet Content Selection,简称PICS)。INFOMINE的记录以HTML语言表示,主题标引使用《国会图书馆主题词表》(Library of Congress Subject Heading,简称LCSH),记录还可以转换成MARC格式。LII的每条记录都给出了详细的介绍,包括资源名称、URL、摘要 、主题词、记录创始人与时间、记录修改人与时间,其中摘要 由LII工作人员撰写,使读者在进入一个网站前便可了解其主要内容。LII链接的基本是资源的原始地址,对工作流程、着录项目与规则以及注意事项均做了非常具体的规定,因而能够保证资源描述的质量与一致性。而GEM采用的元数据元素有:资源题名、描述、级别、GEM主题标目、ERIC叙词、资源类型、格式、权限信息、日期、语种、出版者、创建者和编目机构。AHDS采用21个元素,Agrigate则有30多个元素,包括DC的15个基本元素、管理核心元数据(Admin Core)和AGLS中的若干元素以及该门户特有的元素(如记录加入Agrigate数据库的时间、Agrigate批准者、Agrigate评述日期、Agrigate用户级别等)。
采用的元数据需要容纳学科信息门户中可能出现的任何类型的数据(比如,GEM收录教学计划、课程大纲等有特色的资源类型),包括传统的数据类型(图书、期刊、文件等),也包括内容对象组合(例如由若干文本、图像和音像组成的课件)、内容对象资源集合(图书馆、网站、数据库等)、资源集合知识组织机制(例如分类表、叙词表、语义网络)等。 4 构建合理的分类体系和尽量运用受控词表
分类体系是对学科信息门户收集的资源实施分类组织和用户进行浏览与检索的依据与桥梁,其科学性十分重要。学科信息门户可以采用已有的文献分类法(包括综合性的分类法与专业或专题分类法),也可以结合自身特点与目的对已有的分类法进行适当改进,或者采用自编的分类法。在分类体系的构建中,分类表的展现应力求简单、明了,尽可能将所有的一级类目展现在一个页面;还要充分利用网络方便的超链接功能,对具有多重隶属关系与相关关系的类目设置合理的参照系统。
受控词表的运用既可以保证资源描述的准确性,还有利于实现本专业的深入检索。例如,GEM建立的叙词表是一个多层次结构的术语体系,提供比某一术语更广或更窄的术语及相关术语间的链接。SOSIG建立了社会科学的叙词表以助用户限定检索,该词表以英国Essex大学开发的“人文科学与社会科学电子词表”(Humanities and Social Science Electronic Thesaurus,简称HASSET)为基础。Agrigate采用CAB国际农业词汇(CAB International Agriculture Thesaurus)进行元数据创建、主题浏览和主题检索。LII采用国际通用的LCSH进行标引,但又将LCSH中的部分主题改为更符合公众特点的主题名称(例如,将LCSH中的主题词“electronic mail system”更改为“e-mail”)。它遵守Z39.50与MARC标准,使得它具有与其他学科信息门户之间实现互操作的可能性。笔者通过网上调查,将国内外重要学科信息门户采用分类法与受控词表的情况整理成表1。
表1 国内外重要学科信息门户及其采用的分类法与受控词表
附图
注:①上表中的“无”系指没有利用现有的主题词表;②表中的简称依次为:LCC指Library of Congress Classification,ERIC指Education Resources Information Center Descriptors,AAT指Art & Architecture Thesaums,EI指美国工程信息公司的Engineering Information Classification Codes,NLM指National Library of Medicine Classification, MeSH 指Medical Subject Headings,CAB指CAB International Agriculture Thesaurus;③BIOME对于不同的大类采用不同的分类法。
5 定期更新与维护
学科信息门户的更新与维护包括三个方面:①信息资源的更新与添加。由于网上站点的增加与更改频繁,学科信息门户要真正成为因特网信息的深层组织工具,必须及时更新其收录的资源,这也是保证学科信息门户质量的最重要的后续工作。②学科信息门户中信息资源的安全。要注意对资源进行备份与保存。③服务器的完整性、功能与持续服务的保障。如果用户经常遇到服务器不能正常工作,或有的功能失效,就会失去对该学科信息门户的信心。英国着名的“发展欧洲研究与教育信息服务”项目(Development of a European Service for Information on Research and Education,简称DESIRE)在其手册中对学科信息门户服务器的要求及硬件与软件配置做了详细规定,可供参考。澳大利亚国家图书馆的学科信息门户创始计划也制订了类似的规定。为此,一方面,要有专门的工作人员不断追加新的网络资源,及时剔除错链、死链,保障整个系统在结构上为一个活的系统;另一方面,必须改变目前因追求高质量而过于依靠人工参与的状况,充分利用网上自动漫游、自动跟踪、自动分类和自动标引技术,采用人机结合的工作方式,为用户提供更优质、高效的服务。
在学科信息门户建设之前和建设过程中就要考虑易于维护的问题。LII的资料每周更新,有工作人员负责新资源的追加和保持资源链接的有效性。据该门户网站的介绍,它们的“死链”从来不超过100个。同时,鼓励用户根据LII的标准推荐新资源,设立了“本周新资源”、“更多新资源”和“上周新资源”栏目,资料更新比较及时。而瑞典工程学电子图书馆(EELS)由于人工编制索引慢,跟不上网络资源变化的速度而不得不停止使用,计划在以机器人编制索引的All Engineering[10]基础上开创一个新的门户。
值得注意的是,学科信息门户的更新与维护要考虑用户的需要与反应,比如设计用户调查表,听取用户评价意见,根据用户需求和网络信息资源的变化及时对词表和分类体系进行调整,还可以鼓励用户推荐资源或参与维护(如WWW Virtual Library,Agrigate和EELS)。EELS还设计了详细的用户评价调查问卷(user evaluation questionnaire)。EELS的调查问卷设计得非常具体,可供其他学科信息门户借鉴。其问题包括综合性问题(工程学是否是你感兴趣的主要领域、你介入工程学领域的主要原因、使用计算机的情况、使用WWW的情况、使用WWW的目的),EELS使用中的问题(EELS的界面是否令人悦目、导航功能是否容易使用、你使用过EELS的哪些功能、使用EELS数据库的原因、为什么EELS对你用处最大、EELS的帮助功能如何、EELS的检索结果与你的期望是否很接近、EELS中的资源是否满足你的质量标准、请告知你需要但EELS没有提供的服务、你希望EELS中的文献描述更详细还是更简略、EElS中的分类是否便于你查找文献、从你的经验看EELS最有用之处和最没用处是什么、EELS与搜索引擎相比较的优势何在、你希望EELS提供什么功能以使其对你最有用处)以及学科信息门户使用的可行性(你希望诸如EELS类的学科信息门户提供搜索引擎所不具备的哪些功能、你认为WWW上的质量保证是好事吗、你认为EELS提供了有用的服务吗、你希望一次检索应该返回的记录数大约是多少、请对EELS提出更进一步的评论意见)[11]。而GEM每年都提供一个详细的评估报告(evaluation reports)。
学科信息门户中各信息源数据库与信息平台差异可能很大,为了在统一的界面中使用来源各异的网络资源,学科信息门户必须具有异构计算机软硬件平台间良好的互操作性,具有跨门户检索的能力。
学科信息门户互操作的实现有赖于学科信息专家与计算机专家的合作、国家间的合作以及跨语言与跨文化问题的的解决。SOSIG便是图书馆学专家、信息科学专家、计算机科学专家对图书馆应用、实践与数据库技术有机结合的结果,旨在为社会科学研究人员、大学教师和图书馆员提供世界范围的因特网资源的快捷而高质量的检索,一投入使用便备受欢迎。有些国家学科信息门户建设的合作已经超出本国的范围,如澳大利亚的虚拟工程图书馆(Australian Virtual Engineering Library,简称AVEL)已开始与英国爱丁堡工程学虚拟图书馆(EEVL)合作,拟将合作扩大到东南亚和我国的香港特区,并打算与EELS开展跨门户的检索。化学学科信息门户的合作面更广,澳大利亚的MetaChem已经与德国的化学信息门户合作,并打算与英国的BUBL和美国的Isaac Network互通。
为了提高互操作性,美国国家自然科学基金会(NSF)资助的Isaac Network[12]采用DC作为元数据,以Linux作为平台,以Lightweight Directory Access Protocol(LDAP)[13]和WHOIS++作为信息查询与交换协议,而以代号为RFC2651的通用索引构建协议(the Architecture of the Common Indexing Protocol,简称CIP)[14]作为索引编制与互换协议。通过该门户,用户可以对SOSIG、BUBL LINK、EEVL、EdNA、MathGuide、GeoGuide、OMNI等近20个学科信息门户进行跨门户的检索。同样由NSF资助的“全国科学、数学、工程和技术教育数字图书馆”(SMETE)项目则将多个分布式学科信息门户作为整个数字信息资源的整合机制和服务渠道,允许用户通过该门户体系检索和调用各种不同的信息资源与服务[15]。自1999年9月开始,NSF和英国合作信息系统委员会(JISC)共同发起的“国际数字图书馆创始计划”(International Digital Libraries Initiative)资助了为期3年的“IMesh工具套(The IMesh Toolkit)”项目,IMesh即“因特网学科信息门户国际合作”(International Collaboration on Internet Subject Gateways),该工具套适用于分布式学科信息门户的构建[16]。
为了便于新建和已有学科信息门户之间的交流,澳大利亚于2000年组建了“澳大利亚学科信息门户论坛”[17],并制订了一系列学科信息门户建设的标准,包括“澳大利亚学科信息门户论坛技术考虑:技术、规范与标准”、“澳大利亚学科信息门户最佳实践核对清单”、“发展澳大利亚学科信息门户的国家框架”和“学科信息门户软件的要求”等[18]。
7 运用相关技术
学科信息门户的运作仅靠图书馆的理念是不够的,要涉及到大量的实现技术,如虚拟现实(Virtual Reality,简称VR)技术、虚拟专用网(Virtual Private Networks,简称VPN)技术、虚拟局域网(Virtual Local Area Network,简称VLAN)技术、虚拟数据库(Virtual Database,简称VDB)技术、通用对象请求代理体系结构(Common Object Request Broker Architecture,简称CORBA)技术等。例如,利用虚拟专用网技术可以解决学科信息门户信息共享的安全问题。信息推送(push)技术通过信息代理机制,在用户初次使用时设定所需的信息后,能通过推送(push)或网播(net-casting)的方式把网上相关信息送到用户面前。这种基于push技术的Internet信息检索技术既为用户搜索、浏览网上的相关信息提供了快捷入口,又为学科信息门户在广域网内的信息共享提供了技术支持。为了便于用户从不同的角度进行检索,学科信息门户在建设中可以提供多种格式的元数据,并充分利用已有的不同元数据之间的转换工具,如从MARC 21转换到Dublin Core,从Dublin Core到EAD,GILS,USMARC等,英国图书馆与信息网络化办公室(the UK Office for Library and Information Netwoking,简称UKOLN)在其网站中对这些转换工具做了导航[19]。SOSIG采用了自动标引、分布式编目、镜像等先进技术。LII目前采用快速的、灵活的、功能强大的网页索引系统(Simple Web Indexing System for Humans-Enhanced,简称SWISH-E)。GEM采用Siderean软件公司的具有分面检索技术的Seamark检索引擎。 学科信息门户建设可利用已有的运行可靠的软件或使用较多的软件,如由JISC和英国电子图书馆项目共同资助的“基于学科的服务中的资源组织与发现(Resource Organisation And Discovery in Subject-based services,简称ROADS)”软件已广泛应用于SOSIG,OMNI,ADAM,EELS,EEVL和Biz/ed等学科信息门户中[20]。
8 提供个性化、人性化服务
网络环境下,用户需求的变化除了需求量上的增长外,还表现为信息需求复杂程度的提高:用户成分逐渐多样化、复杂化,不同年龄、性别、文化程度、国别、信仰的人士有着不同的信息需求。同一个用户在学习、娱乐、工作等不同的活动中也有着不同的信息需求,希望有一个系统能直接、深入、有效地支持其检索、处理信息和利用信息来解决问题,帮助其建立个人的数字图书馆(personal digital Iibrary,简称PDL)。用户信息需求的个性化要求学科信息门户在提供信息浏览与检索等基本服务的同时,还要利用网络新技术,跟踪用户需求,主动地为用户提供新资源通报、信息推送与定制服务。学科信息门户还必须利用可视化等技术增强用户界面的友好性,注重帮助功能的提供,体现对用户的人文关怀,注意尊重与保护合法用户的权利与个人隐私。
EELS的功能除了浏览与检索外,还有方便的帮助功能和新资源通报(What‘s new in EELS)服务。LII创造了一个普通用户易于使用的界面,用户可浏览所有的主题,其检索功能也非常强大:用户可以在基本检索中选择检索所有字段或只在资源题名、主题、描述、URL字段中检索;选择进行词根检索或非词根检索;对输出结果可以选择只显示题名或显示完整记录;高级检索还支持布尔逻辑检索。但由于开发的时间较早,LII忽略了用户定制等服务。2000年始由NSF资助的美国国家科学数字图书馆(the National Science Digital Library,简称NSDL)非常注意数字图书馆的交互性与个性化服务,已建成的SMETE不只是一个网上的信息存储场所,还给用户提供了一个动态的、开放式的数字化学习空间,用户可在此进行信息浏览与检索、下载、定制个人文件夹、获得适合其需要的资源推送服务、发表评论以及与同行交流等,真正为用户创造了一个数字化的信息资源存储与服务空间。CSDL已能把用户需要的信息资源和服务有机地集成在一个统一的系统里,并开通了分布式参考咨询系统,聘请30多位中国科学院前沿领域的科学家和资深的咨询馆员为知识导航和咨询专家,为用户向专家交流咨询提供了平台[21]。这些都是新型的学科信息门户应该具备的。
以上的优化对策是就单个学科信息门户而言的,从总体上看,学科信息门户发展不平衡的局面有待改变。这种不平衡表现在地域分布、学科分布与语种分布等方面。医学与健康科学、工程学、教育学等学科的信息门户很多,而音乐等学科的信息门户很少。有影响的学科信息门户主要分布在美国与欧洲,澳大利亚的学科信息门户近几年也发展较快,其国家图书馆已经建立了农业、教育、人文科学、法律和舞蹈等学科的信息门户,在建的还有“澳大利亚音乐”(MusicAustralia)。英国St Andrews大学图书馆和Heriot-Watt大学图书馆分别整理了一个收录50多个学科信息门户的列表[22-23],其中没有一个是我国的,这一点值得我们深思。我国的学科信息门户可通过推出英文版、采用国际标准(如DC,Z39.50,OAI等)和参与国际学科信息门户建设的合作项目来加速其国际化进程。
【参考文献】
1 黄如花.网络信息组织:模式与评价.北京:北京图书馆出版社,2003
2 Kirriemuir J, Brickley D, Welsh S. Cross-searching subject gateways: the query routing and forward knowledge approach. [2004-11-23]. dlib/january98/01 kirriemuir. html
3 What is Subject Gateway? [2004-11-23]. html/subjectgateways/subjectgateways. html
4 张晓林.分布式学科信息门户中网络信息导航系统的规范化建设.图书馆学、信息科学、资料工作,2003(1):88-94
1 Managing the hybrid Library for the Benefit of Users(MALIBU): a hybrid library for humanities models for management and organisation. [2004-11-23]. humanities/cch/malibu/
6 吴开华,邢春晓,罗德胤.数字图书馆元数据研究.中国图书馆学报,2002(3):43-46
7 张晓林.开放元数据机制:理念与原则.中国图书馆学报,2003(3):9-14
8 DESIRE Project Homepage. [2004-11-23].
9 System Requirements Specifics, Hardware and Software. [2004-11-23]. . org/handbook/3-1. html
10 "All" Engineering Resources on the Intemet: a Companion Service to EELS. [2004-11-23]. http://eels. lub. lu. se/ae/index. html
11 DESIRE: Deliverable D9.3-Appendices. [2004-11-23]. desire/d93/D93appendices. html
12 Isaac Network. [2004-11-23]. Projects/PastProjects/Isaac/
13 OpenLDAP Software. [2004-11-23].
14 Internet RFC/STD/FYI/BCP Archives. RFC2651. [2004-11-23]. rfcs/rfc2651. html
15 National Science, Math., Engineering and Technology Education Digital Library(SMETE). [2004-11-23].
16 The IMesh Toolkit. [2004-11-23]. toolkit/
17 Australian Subject Gateways Forum (ASGF). [2004-11-23].
18 Australian Subject Gateways Forum Standards. [2004-11-23]. http://www. nla. gov. au/initiatives/sg/frameworks. html
19 Mapping Between Metadata Formats. [2004-11-23]. metadata/interoperability/
20 What is ROADS? [2004-11-23]. metadata/roads/what/
21 中国科学院国家科学数字图书馆主页.[2004-11-23].
22 Internet Subject Tree. [2004-11-23]. http://www-library. .
23 Heriot-Watt University. Pinakes:A Subject Launchpad. [2004-11-23].
上一篇:计算机网络信息安全及对策