网络信息分类法构建研究进展
【内容提要】文章从建构方法、原则、语言、大纲、现代技术应用、具体问题等方面,概括了近年来网络信息分类法构建的研究进展。
【摘 要 题】信息资源建设与管理
【关 键 词】网络信息分类法/网络信息组织/分类法构建
【正 文】
根据网络信息和用户检索需求的特点,依据网络环境构建科学、实用的网络信息分类法,是信息资源组织管理研究的重点之一。本文主要以1999年—2005年的中国学术期刊网数据为信息源,从构建方法、原则、语言、大纲、信息技术应用等6个方面回顾了近年来网络信息分类法构建的研究进展。
1 构建网络信息分类法的依据或方法
目前,网络信息分类法主要是指网络搜索引擎分类体系。基于“分类工具通常是根据分类对象的特点和用户需求,结合一定的技术环境建立的”认识,马张华在《分类搜索引擎类目体系研究》一文中论述了分类搜索引擎类目结构的编制依据:(1)从分类对象来看,网络资源的特点是数量、种类多,动态性强,新兴科学、商业、娱乐的资源数量较多,传统知识门类的资源相对较少,要求有新的、适合处理对象的分类架构。(2)从用户需求来看,网络的使用对象涉及所有的终端用户。(3)从技术环境来看,网络信息分类体系应充分利用计算机操作环境与超文本技术,在体系构建、类目设置等方面发展不同于传统分类法的技术特色。[1]
陈树年提出建构网上知识分类体系的(基本结构)编制方法,即:①有一个涵盖各知识领域、结构清晰、层次简明、能满足网上信息组织需要的分类体系;②采用等级结构展示知识的系统联系,构成枝干分明的主题树或脉络清晰的知识地图;③类目的排列和检索结果的排列方法应采用对用户最有用的排列次序;④分类体系的标记应适当保留。石晓华等在分析了网络信息分类法与传统分类法的优劣之后,首次提出了建构《中国网络信息分类法》的建议,并列举了具体的编制方法,即:①以传统分类主题体系为基础,建构多维的分类体系;②栏目因需而设,突出重点;③控制分级,减少栏目层次;④根据用户确定栏目名称的规范程度。张琪玉则提出了一整套设计方针,即:①为不同类型的需求提供不同特性的分类体系;②在统一框架下设置分散独立、各自完整的分类体系;③分类体系的类目设置不以网罗全部网络信息资源为目标;④分类体系应具有开放性和可变性,并应有反映新颖信息的措施。他也设计了一个供普通用户使用的分类体系框架。王知津赞同石晓华的第①、②、③建议,认为可以借鉴传统分类体系,构建《网络信息分类法》,实现网络信息分类法与主题词表的结合,即分类主题一体化。实现分类主题一体化,需要做好三个方面的工作:①建立一个结构简明的知识分类体系,通过对信息资源的系统分类,实现对网络信息的宏观控制;②建立一个智能化的控制词表,实现作者语言与用户检索语言的控制和转换;③建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系,这样既可以用自然语言直接检索,也可以在任何类下进行语词检索,从而较好实现分类与主题的兼容。董琳提出的思路是设计一个融知识分类、行业分类、网站信息分类于一体的综合性中文网站分类体系。该体系把一级大类分为5大模块:较丰富信息的模块、高查询率模块、学科专业模块、查询入口模块、综合网站模块。常设20个一级类目,把主题作为主要聚类标准,学科和专业作为辅助聚类标准。
另外,陆宝益提出编制的具体步骤,即建立专门机构,配备专业人员;开展深入调研,制定可行计划;广泛征求意见,不断修改完善。其他学者,如陈代春、赵培云、刘颖、许磊等也从不同角度论述了如何构建统一的网络信息分类法的问题。
2 网络信息分类法构建的原则
构建新的网络信息分类体系,需要吸收现有搜索引擎分类体系优势,借鉴传统分类法的部分长处,并遵循基本的设计指导原则。有的学者认为,强调类表的科学性和专业性,而忽略了最终用户——信息需求者的利益,是传统文献分类法无法适应网络信息分类的基本原因之一,所以建立中文网络信息分类体系应以实用性为主。持相同观点的学者,如,史学斌提出“实用性、自然性、系统性和技术性、针对性”原则。郑庆胜指出“实用性、全面性、规律性、统一性和特殊性”原则[10]等。
持相反观点的学者认为,首要的原则是科学性原则。吴丹认为,与传统分类法一样,网络信息分类也必须具备科学性原则,分类体系仍必须以科学的知识分类为基础,即科学性原则、易用性原则、针对性原则、动态性原则[11]。其他学者,如陆宝益提出“科学性、自然性、实用性、同一性、通用性、兼容性、发展性”原则[12]、朱蓓玲提出“科学性、实用性、易用性、自然性、针对性、快捷性、系统技术性”原则[13]。敬卿、吴静提出的“科学性、实用性、易用性、自然性、通用性”原则[14]。邓香莲提出的“科学性、简洁性、直接性、实用性、动态性、自然性”原则[15]也应归属此类。
关于网络信息分类体系的原则,研究者智者见智,较多学者都提到了应遵循“科学性、实用性、自然性”原则。主要分歧是强调科学性优先还是实用性优先。笔者认为,网络信息分类法要适应组织网络信息动态变化的需要,满足用户复杂的信息查询需求,对于综合性、大众性的中文网络信息分类体系,必须以实用性原则为主,兼顾科学性的原则。
3 网络信息分类法构建的语言
从实践来看,传统的文献分类法使用的是典型的人工语言,而网络信息分类法使用的主要是自然语言。因为人工语言严格的规范性使用户丧失了检索中的自主性和能动性,背离了以人为本的原则,自然语言是检索语言发展的必然。[16]张琪玉教授则指出由于自然语言有其固有的缺陷,网络信息检索不可能仅仅使用自然语言,也必须使用人工语言。情报检索用语发展的大趋势,是情报检索语言的自然语言化和自然语言的情报检索语言化,是两者的初级结合到完全融合的过程。[17]所以有的学者认为需要对网络受控语言进行适合于网民大众习惯用语的改造,提出了“受控语言网民化”的思想。[18]陈晶也指出:“改进受控语言的易用化是网络环境下的大势所趋,而对自然语言进行必要的控制也是网络环境下势在必行的,两者的相互渗透、有机结合是情报检索语言发展的大趋势。”[19]
有的学者认为分类主题一体化语言,实质是受控语言内部的一体化,它不能适应网络检索的发展,应当建立更适合于网络信息检索的自然语言与受控语言结合的一体化语言。[20]有的学者通过分析受控语言和自然语言各自在网络中的应用,分析其优缺点,指出无论受控语言还是自然语言都有各自独特的优点和缺陷,不能彼此取代,可以相互补充。而“它们在网络中的应用研究也表明两者之间呈现出明显的相互交织兼容的趋势”。[21]
笔者认为,任何一种语言都有长处和短处,都不能完全满足网络用户多样化需求,分类语言和主题语言相结合、自然语言和人工语言相结合才是建构网络信息分类法的发展趋势。
4 网络信息分类法的大纲设计
对网络信息分类法进行深入研究并提出大纲或框架的代表作有文献[22]、[23]、[24]。陈树年阐述了构建网上分类体系的原则与技术后,提出了一个适用于一般用户的综合性中文搜索引擎的信息分类大纲,该大纲包括22个大类,即哲学与宗教、人文与社会科学、社会文化、文学与艺术、教育与人才、体育与健身、休闲与生活娱乐、旅游与服务业、医学与健康、经济与金融、政治、法律、军事、历史与地理、自然科学、农业科学、工程技术、计算机与网络、新闻与媒体、图书馆与参考资料、国家与地区、综合网站。并指出以学术和技术为主的搜索引擎、专业搜索引擎最好以权威分类法(或其中的某些类)为基础,经过一定的改造后用于网上信息的组织和检索,因为其科学的体系和严密的结构是非专业人员所不能独立完成的。[22]吴丹采取学科分类与事物分类兼顾的方式,也设计了一个包含有 18个大类和若干二级类目的网络信息分类体系设计方案。18个大类,即政治法律与军事、新闻与媒体、商业与经济、自然科学、农业与工程技术、计算机与网络、教育、哲学与宗教、人文社会科学、文化艺术、历史与地理、国家与地区、旅游与交通、医学与健康、生活服务、体育与健身、娱乐休闲、图书馆与参考资料。[23]许培扬提出了中文网络信息分类法应由简表、主表、索引和使用指南四部分组成。简表一般由1-4级类目构成,主表由全部类目构成。索引包括:①本表与其他分类体系的对应,用于不同分类体系的转换;②英译名称索引,从英查汉或从汉查英。使用指南是分类体系的详细说明。[24]
5 现代技术在网络信息分类法构建中的应用
由于网络信息分类法必须能适应网络技术环境,这就要求在编制过程中适当采用许多现代信息技术,如自动分类技术、人工智能技术、网格技术等等,以适应网络技术环境的发展特点。马张华专文阐述了超文本技术在网络信息分类法编制中的应用。[25]他指出:超文本技术可以改进主题之间多维关系的揭示;可以从多个角度组织信息资源;可以进行轮排,亦即多表列类;可以设置镜像类目,根据需要对某些重点类目或热点类目突出反映;可以动态设置类目和动态揭示类目之间的关系,根据需要及时增添类目或删改类目;可用于联结不同的检索系统,增加检索入口;可以联结分类体系与相应的说明文字与规则系统。
陈旭论述了分面分类在网络信息分类法编制中的应用。[26]文章首先论述了在编制网络信息分类法时,可根据需要利用仿分技术编制各种类型的通用复分表、专用复分表及规定必要的仿分。其次论述了分面叙词表的应用。最后论述了分面分类在可视化检索中的应用。即在检索界面上设置主题分面、书目形式分面、时间分面和地域分面,然后再按等级列举的方式分别展开,既便于类表的修订与维护,又便于用户检索更为专指的信息。
周淑云在《分类主题一体化构建网络信息分类体系》[27]一文中指出,理想的网络分类法应是分类法和主题法的结合使用,理想的模式是以“分类一主题”的方式对知识进行组织,形成一种兼具分类、主题两种标引和查找功能的新型检索语言,从而为不同层次和不同需求的用户分别提供不同的信息查询功能。分类主题一体化的网络分类体系既突破了传统分类法层层划分、层层隶属的等级结构又克服了主题法系统性差,将同类信息分类的特点。对此问题进行论述的还有郭丽芳、梅伯平、苏瑞竹等。
6 构建中微观层面的具体问题
对网络信息分类法编制的一些具体问题,许多学者都予以了详细的探讨。
陈树年在《网络信息分类法研究》中研究了聚类标准、大类设置、展开层次、类目种类、类目名称、多分类体系、分类标准与使用次序、类目设置的均衡性和规律性、重点类目、交叉关系的处理、类目的排列、类目的注释和说明、用户界面的设计等,并给出了相应的改进意见。[28]他认为,关于聚类标准,综合性网络信息分类法聚类的主要标准应当是“主题和专题”,专业搜索引擎可以学科或专业为主要聚类标准,或结合主题聚类运用;关于大类的设置数量通常以10-20个为宜;关于类目的名称要做到准确、通用和精练;关于类目种类包括“子类”与“网站”两种,“在每一类下,把内容宽泛,各个下位类不能容纳的信息归纳为‘综合网站’集中收录是网络分娄法实用的作法”。
其它方面,人们观点大致雷同。如,关于分类体系展开层次,陈树年提出基本应控制在3-6级之间;赵培云认为根据目前网络信息的实际情况和用户浏览查询心理,综合性网络信息分类标准,类目应控制在三、四层为宜,专业搜索引擎和网站可适当延伸。[29]张琪玉提出类目细分应控制在五级左右。[30]
总之,由于网络信息、网络信息用户、网络信息技术环境等特点,这就决定了网络信息分类法的编制原则和技术方法,有别于传统分类法的编制原则和技术方法,但是传统文献分类法和现有网络信息分类体系的成功经验可以给网络信息分类法提供有益的借鉴。我们建议,应当由国家信息产业部牵头,组织图书情报界专家、计算机专家、网络公司等相关专家,广泛征求意见,尽早编制出一部用户满意、质量较高的网络信息分类法。
【参考文献】
[1] 马张华.分类搜索引擎类目体系研究.图书情报工作,2001(2):36-40
[22] 陈树年.搜索引擎及网络信息资源的分类组织.图书情报工作,2000(4):31-37
石晓华,王春芳。网络信息分类与传统分类法的优劣分析——兼谈构建《中国网络信息分类法》.图书馆理论与实践, 2001(1):43-45
[30] 张琪玉.网络信息检索工具的分类体系.江苏图书馆学报,2002(4):7-11
王知津,肖洪.网络信息组织对传统信息组织的借鉴.图书馆工作与研究,2003(4):2-7
董琳.网络信息分类组织的发展趋势与标准化.图书情报知识,2004(2):65-67
[12] 陆宝益.论创建我国统一的网络信息分类法.中国图书馆学报,2004(6):44-47
千忠红.网络信息环境下的传统分类法.图书情报工作, 1999(2):37-39
史学斌.网络信息分类体系.图书馆,2002(1):33-35,20
[10] 郑庆胜,易晓阳.从新浪等网站看网络信息分类体系的建立.图书馆建设,2003(1):69-71
[11][23] 吴丹.网络信息分类体系设计.图书情报知识,2002(5):37-39
[13] 朱蓓玲.浅析构建网络信息分类体系.情报杂志,2004(8): 110-111,114
[14] 敬卿,吴静.网络分类目录规范化初探.图书馆,2002(1):49-50
[15] 邓香莲.文献信息分类与网络信息分类之比较研究.情报资料工作,2002(6):43-45
[16] 粟慧.以人为本的必然:人工检索语言向自然语言的转变.图书馆,2000(2):9-10
[17] 张琪玉.网络信息检索用语言的发展趋势.图书馆杂志,2001(3):5-7
[18] 梁树柏,高夕果.受控语言网民化的思考.情报杂志,2002(8):69-71
[19] 陈晶.论网络环境下情报检索语言的发展.情报杂志,2002 (6):54-55
[20] 吕娟,袁相琴.论第四种情报检索语言系统.中国图书馆学报,2002(1):87-92
[21] 焦玉英,李法运.网络环境下信息检索语言的优化研究.情报学报,2003(3):291-296
[24] 许培扬,张玢.网络信息分类标准研究进展.医学情报工作,2002(6):324-326
[25] 马张华,李玲.超文本技术在分类法编制中的应用.大学图书馆学报,2001(1):60-62,66
[26] 陈旭.分面分类在网络资源组织中的应用.图书情报工作,2002(1):59-61
[27] 周淑云.分类主题一体化构建网络信息分类体系.现代情报,2003(4):113-114
[28] 陈树年.网络信息分类法研究.现代图书情报技术,2002(3):54-57
[29] 赵培云.如何构建统一的网络信息分类标准.河南图书馆学刊,2004,24(2):64-65