网络信息资源老化规律研究
科学文献老化的探索源于1944年美国纽约大学的戈斯内尔(l)在美国《大学与研究机构图书馆》杂志上发表的题为《大学图书馆中文献老化问题》的论文,在传统文献老化规律研究领域,已经形成了以半衰期(Half-Life)和普赖斯指数(Price Index)为主要指标,以负指数模型、巴尔顿—凯普勒老化方程、布鲁克斯老化方程等为方法的研究体系。但是,这些指标和模型是否同样适用于网络信息资源的老化研究,目前还没有得到充分的论证。以下的部分,我们在分析网络信息资源老化原因的基础上,通过比较传统文献资源和网络信息资源老化的差异,从理论上初步探讨衡量网络信息资源老化的指标。
1 网络信息资源老化的原因及特征
1.1 网络信息资源老化的原因
网络信息资源的老化是指网络信息资源中情报的有效价值随着时间的流逝逐渐衰减,利用率逐步降低。这与传统文献的老化一样,是一种普遍存在的现象。造成网络信息资源老化的因素很多,我们大致可以将其归纳为以下几个方面
(1)网络信息资源的增长。情报学家M.劳恩曾说过:“文献增长得越快,文献的半衰期就越短。”信息资源的增长和老化是同一事物的两个方面,它们从不同的角度反映信息资源的动态变化。众所周知,网络信息资源的增长速度极其惊人。以我国为例,据中国互联网络信息中心的统计,2002年12月31日,全国网页总数为157,091,220个,字节总数为2,877,754,095KB[1];2003年12月31日,全国网页总数为311,864,590个,字节总数为6,059,431,526KB;到2004年12月31日,全国网页总数就达到了650,682,300个,字节总数增长到20,537,214,718KB,与2003年相比,增幅分别为108.6%和238%。
(2)网络信息资源的更新。网络信息资源的更新是指网络信息资源在载体形态、数据组织方式、网址等外在特征不变的情况下,所含知识和情报在内容上的变化。1998和1999年,Bar-Ilan和Peritz对信息计量学领域网络信息的生命周期研究表明,在6个月内近50%的网页发生了变化;而Wallace Koehler的观察结果更为显着,他发现97%的网站6个月内会发生变化,如观察时间为1年,则比例上升为99%。对于网页而言,这组数据分别为98.3%和99.1%。应该指出的是,网络信息资源更新并没有引起网络信息资源总量的增长。
(3)网络信息资源的消失。网络信息资源的消失是指网络信息资源无论出于何种原因,被从系统中删除,不能再被访问和利用。文献表明,68%的网页1年内将被从网上移除;而文献发现,有12.2%的网站和20.5%的网页6个月后不能再被访问到。1年后,分别上升到17.7%和31.8%。并且,每周有0.5%的网页和网站消失。与网络信息资源的更新不同,网络信息资源的消失意味着网络信息资源总量的减少。
(4)替代性网络信息资源的出现。随着人类对客观事物和社会运动规律认识水平的提高,原有的知识不断被完善和突破。同时,由于技术的进步和社会信息需求的共同推动,网上信息的加工深度越来越大,原有的知识和情报被包含在新的知识和情报之中,因而,原来不完善、不全面的陈旧信息资源逐渐不再被利用。替代性网络信息资源的出现并不意味着原有信息资源的更新和消失,而表现为网络信息资源中,蕴含新知识和情报的信息的出现和信息总量的增长。
(5)网络信息资源的吸引力。网络信息资源的吸引力主要来自两个方面:一是网络信息资源所揭示和反映的对象所处的发展阶段。处于诞生和发展初期的事物,相关网络信息资源的数量往往呈指数增长,老化遵循负指数函数关系。进入成熟期后,信息的增长速率变小,老化曲线也变得平缓,半衰期加长。当对该事物的认识积累到一定程度,将出现质的飞跃,相关信息的增长进入新一轮的指数增长阶段,相应的,老化曲线也恢复成负指数曲线。二是网络信息资源的受关注程度。对于网络信息资源所揭示和反映的对象而言,受关注程度越高,往往意味着知识更新越快,半衰期越短,反之则越长。对于网络信息资源自身而言,其受关注程度遵循“Winner takes all”法则,受关注程度越高的网络信息资源半衰期越短,也就是说信息更新越快,质量和数量也稳步提升。
1.2 网络信息资源老化的特征
网络信息资源老化与传统文献资源老化既有相同之处,又有显着的差异,其独特之处主要表现在:
(1)非累积性。传统文献资源的重要特征之一就是其存在的永续性,即使这些载体上的知识和情报完全失去了使用价值,它也不会消失。原有信息的修正与更新、替代信息的生产以及新信息的产生必须依靠新的载体。因此,传统文献资源从数量上来说,总是不断增长的。而网络信息资源则不然。网络环境中的信息是介于产生后永续存在与即刻消失两种状态之间的第三类信息,它的更新和消亡是其存在和运动的常态。在网络环境下,新信息的出现并不一定意味着信息总量的增长,而且,相当一部分信息在丧失其使用价值之后会彻底消失,引起信息总量的减少,呈现负增长状态。所以,我们认为网络信息资源具有非累积性,这表明网络信息资源的老化研究往往只能基于特定时间点或时间段,难以系统地回溯其历史状态。
(2)动态性。动态性与非累积性是内在统一的。任何信息都是外在形态与所含内容的统一体。记录信息的载体和信息的组织方式是信息资源的外在形态,而内容,即其所蕴含的知识和情报才是核心。传统文献资源的外部形态和内容是不可分割的,因而必然具有累积性。而网络信息资源的外部形态和内容可以是相互独立的,因此,在网络信息资源载体的形态、信息组织方式、网址等保持不变的情况下,内容可以不断更新,甚至删除,这就体现为它的非累积性。众所周知,半衰期、普赖斯指数的测定都是依据特定领域文献资源的被利用情况,而网络信息资源的动态性使其老化规律的研究增加了新的内容,即对网络信息资源自身生命周期的研究。
(3)不完全性。传统文献,的生产和传播是受控的,由相关机构统一审核和管理。因此,在传统文献资源老化研究中,研究对象的范围一般相当清晰,在数量上也是可数的。而在网络信息资源的老化研究中,研究对象的不完全性却是无法回避的问题。导致该问题出现的原因主要来自两个方面:一是网络的开放性决定了网上信息的发布基本上处于不受控制的状态,因此,任何研究者都无法确知网络信息资源的精确构成和分布状况,在研究特定领域的网络信息资源时,也就不可能准确地划定研究对象的范围和数量。二是网络信息资源的非累积性和动态性造成了研究对象在时间维度上的缺失,因此,在研究中也就难以系统地回溯研究对象的历史状态。
根据网络信息资源老化的原因及其特征,我们从网络信息资源自身的生命周期和网络信息资源被利用情况两个方面,建立衡量网络信息资源老化状况的指标。
2.1 网络信息资源的生命周期
网络信息资源的生命周期反映的是网络信息资源自身的老化状况,可以采用半衰期和生存期两项指标衡量。
2.1.1 半衰期
半衰期源于物理学领域,原指放射性元素的原子核有半数发生衰变所需的时间。我们借用这一概念,将网络信息资源的半衰期定义为网络信息资源的基本构成元素有半数发生变化所需的时间。根据是否考虑网络信息资源的增量部分,网络信息资源的半衰期又可以分为静态半衰期和动态半衰期。
(1)静态半衰期。静态半衰期是指在不考虑增长的情况下,网络信息资源的基本构成元素有半数发生变化(含消失)的时间。例如,以网页为基本构成元素,考察网站A的静态半衰期。假设网站A有10000个网页,每个月有1000个不同的网页发生变化,并且有100个网页消失。根据上述定义,网站A的静态半衰期为10000÷2÷(1000+100)=4.55(月)或0.38(年)。
(2)动态半衰期。动态半衰期是在考虑增长的情况下,网络信息资源的基本构成元素中较新的一半产生于多长时间内。例如,在上例的基础上,假设网站A每个月新增500个网页。根据动态半衰期的定义,网站A的动态半衰期为10000÷[2×(1000+500)-(500-100)]=3.85(月)或0.32(年)。
当然,半衰期的计算在实际研究中情况会复杂得多。首先,网页不会匀速地发生变化、消失和增长;其次,一个网页可能连续多次发生变化,由于我们考察的基本元素是网页,因此只能将其计为一次;第三,在计算动态半衰期时必须认识到,新增网页也会发生变化;最后,出于研究的需要,我们可能会选择在信息组织上比网页粒度更细的单元作为基本构成元素,譬如知识单元、网络链接、单词等。
2.1.2 生存期
网络信息资源的生存期是指特定网络信息资源的URL存续时间。如同人的遗传密码一样,URL是区分不同网络信息资源的唯一标识,因此,我们认为URL是判定网络信息资源生存期最理想的依据。根据该定义,只要URL保持不变,无论内容如何变化,都视为同一个网络信息资源。在极端情况下,特定URL所对应的网络信息资源内容甚至可以为空反之,即使内容没有发生任何变化,只要URL被改动,我们就视为原信息资源“生命”的终结和新网络信息资源的诞生。当然,如果特定网络信息资源及其URL同时被删除,同样也意味着该网络信息资源生存期的终止。
2.2 网络信息资源的价值周期
网络信息资源的价值周期的计量依据是其被利用的状况,这与传统文献资源老化规律的研究思路基本相同。文献半衰期的研究可以分为学科文献的半衰期和论文的半衰期。学科文献的半衰期是指某学科(专业)现时尚在利用的全部文献中较新的一半是在多长一段时间内发表的;论文半衰期是指引用这篇论文的全部其他论文的二分之一是在这篇论文发表后的多长时间内发表的。需要强调的是,学科文献的半衰期是相对于被引文献而言,而论文的半衰期是相对于引用文献而言的。与此相对应,我们仍然以“半衰期”为指标衡量网络信息资源的价值周期,并按研究对象分为宏观网络信息资源半衰期和微观网络信息资源半衰期。
(1)宏观网络信息资源半衰期。根据学科文献半衰期的概念,我们将宏观网络信息资源半衰期定义为某主题领域网络信息资源所含链接的链宿所指资源中较新的一半是在多长时间内产生的。例如,如果我们说网络信息计量学的网络信息资源半衰期是1.2年,就表明在我们进行统计研究的那一年里,在网上发布的网络信息计量学文献中的链接所指资源的50%是在最近1.2年内发表的。
宏观网络信息资源半衰期的研究是基于网络信息资源中的链接。由于网络信息资源中的链接与文献的被引文献是性质完全不同的两类事物,因此,在借鉴其研究思路的同时,我们应该注意自身的特殊性。笔者认为,最重要的几个需要解决的问题是:第一,必须明确链接的目的,也就是链源与链宿之间的关系;第二,当链宿的发布时间晚于链源所在网络信息资源的发布时间时应当如何计算;第三,是应该采用网络信息资源中所有的链接,还是只考察出链;第四,从理论上来说,我们需要获得该主题领域的所有网络信息资源,并提取其所含有的链接。由于网络信息资源的不完全性,研究结果可能与客观实际存在相当程度的差异。
(2)微观网络信息资源半衰期。参照论文半衰期的概念,微观网络信息资源半衰期是指指向该网络信息资源的全部其他网络信息资源的二分之一是在其发布后的多长时间内出现的。例如,网上某文档的半衰期是1.5年,就意味着该文档所获得入链的链源所在网络信息资源的50%出现于其发布后的1.5年内。
与宏观网络信息资源半衰期的研究相比,微观网络信息资源半衰期研究所面临的问题相对较少。根据上述定义,微观网络信息资源半衰期的研究不涉及自链,并且基本不会出现入链的链源所在资源的发布时间早于研究对象出现时间这样的情况。因此,需要考虑的问题中最主要的就是解决或尽量缩小网络信息资源的不完全性。尽管有研究表明,网络链接的使用动机与文献引用动机存在巨大差异,但笔者认为,无论处于何种动机,网络信息资源获得入链就意味着其使用价值的实现,我们在计量其半衰期时不必做过多的区分。
3 网络信息资源老化研究展望
网络信息资源的老化研究与网络信息资源的增长、分布与利用研究共同构成了网络信息计量学研究的基本框架,对丰富与完善网络信息计量学的学科体系具有极高的理论价值。同时,网络信息资源老化研究的成果也是网络信息资源建设、管理和利用的依据,具有重要的现实意义。
目前,国内对网络信息资源的老化研究才刚刚起步,所见文献仅有2004年王宏鑫和邱均平在《情报理论与实践》第4期所发表的《关于网络信息老化研究的若干问题》一文。因此,在现阶段应该借鉴文献计量学的研究成果,在充分认识网络信息资源与传统文献资源所存在差异的基础上,建立网络信息资源老化研究的理论与方法体系,为探索网络信息资源老化规律和实践应用奠定基础。
【参考文献】
1 2002年中国互联网络信息资源数量调查报告.
2 2003年中国互联网络信息资源数量调查报告.
3 2004年中国互联网络信息资源数量调查报告.
4 Bar-Ilan, Peritz life span of a specific topic on the Web: the case of "informatrics" a quantitative analysis. Scientometrics. 1999, 46(3):371-382
5 Wallace Koehler. An Analysis of Web Page and Web Site Constancy and Permanence. Journal of the American Society for Information Science. 1999, 50(2).
6 邱均平编着.文献计量学.北京:科学技术文献出版社,1988.
7 Hak Joon Kim. Motivations for hyperlinking in scholarly electronic articles: A qualitative study. Journal of the American Society for Information Science. 2000,51(10)
8 王宏鑫,邱均平.关于网络信息老化研究的若干问题.情报理论与实践.2004(4)
上一篇:如何做好网络管理工作