研究生学位论文引文分析系统的分析与设计
1.引言
图书馆是人类社会文明进步与智慧的结晶,尽可能满足图书馆用户对文献的需求是图书馆建设始终不变的追求。随着文献资源的多样化发展和读者对文献资源多元化需求,图书馆需要更快捷、准确、有效的图书情报信息来指导其馆藏建设工作。大学图书馆中研究生是重要的读者群,他们是高级研究人员的后备军,在导师指导下,参阅了大量的中外文献资料,对本学科领域的最新研究课题进行了潜心研究,逐年积累了一批科研成果一学位论文。学位论文作为情报文献中一个重要组成部分不仅反映了研究生的理论学术水平,其后所附的引文也反映了研究生的文献需求和他们吸收文献信息的能力,从中可以了解他们利用文献的规律和对专业文献资源的需求特点目前许多大学图书馆都面临着采购经费不足与各种文献价格持续攀升之间的矛盾因此对研究生学位论文引文进行定量统计分析为图书馆提高文献采集质量,提高文献满足率提供了必要的参考资料。
引文分析法是一种应用于图书馆文献采集的有效工具,引文分析法需要建立在全面的引证数据基础上,由于对大量数据进行搜集、统计、分析,既费时又费力,所以在手工方式下使其发展在一定程度上受到了限制。当今,信息处理技术和计算机技术的发展为引文分析法提供了技术支持,本文介绍了研究生学位论文引文分析系统作为一种在计算机辅助下实现快捷、方便、准确的引文分析的方法。
2.引文分析方法
图书馆的馆藏建设是由规划、选择、收集、整理、组织、保管等环节构成的系统工程,图书馆的馆藏建设水平可通过馆藏评价来衡量。文献计量学是一种广泛应用于图书馆馆藏建设的科学、定量的评价方法,它是借助文献的各种特征的数量,采用数学与统计学方法,对各类文献的诸计量特征进行统计分析,进而揭示和研究文献情报规律、文献情报科学管理以及学科发展趋势的一门科学在文献计量学研究中,以引用数据为基础的计量技术作为重要的研究手段已被广泛接受,其中引文分析法是文献计量学方法中最为重要的技术之一。
所谓引文分析就是用数学和逻辑学方法对期刊、论文、专著等研究对象的引证和被引证现象及规律进行分析,以揭示出它们所蕴含的研究对象所具有的特征或对象之间的关系的一种研究方法。引文分析法被广泛应用于核心期刊的测定,文献规律的研究,情报检索系统,情报预测研究,对文献的评价,馆藏分析及图书采集中,其内容包括引文量、引文时间、引文类型、引文语种、引文作者等的被引规律分析,自引规律分析等。
2.1被引规律分析
被引文献具有一些基本要素,如文献类型、学科内容、语种、年代、引文出处等。依照不同要素和指标,可以将被引文献分为以下一些类型:被引文量按频数分布;被引文按年代分布;被引文按学科或主题分布;被引文按文献类型分布;被引文按语种分布;被引文按国别分布;被引文按著者分布;被引文按期刊分布。被引文量指某一主体对象(论文、期刊、学科、著者等)含有的参考文献数量。通过被引文量的频数分布分析,可以揭示作者吸收和消化情报的途径和能力及作者使用情报源的习惯和方式特点【51。被引文年代分布是从时间的角度对引证分布规律进行分析,可以反映被引文的出版、传播和利用情况,常用于文献老化和科学史的研究。通过对被引文年代分布曲线的分析可大致确定被引文献投入使用的周期,中、夕卜文被引文献从出版到被利用的平均时间差及科学文献被引用的最佳年限。被引文献类型分布即各种类型的文献(如图书期刊、特种文献)在参考文献中f例,研究被引文类型的分布可以相对显示出各类文献的情报价值。被引文按文献语种分布对图书情报部门有计划地引进外文文献、译文选择、外语教育等都颇有参考价值。
2.2自引规律分析
被引文献是自己以前所发表的文献(或者说作者引用自己以前发表的文献)的文献引用现象叫做“自引”。在全部引用文献中,自引文献大约占有1030%。自引是一种特殊的科学文献引用形式,它所包含的特殊规律性对揭示作者、机构、期刊和学科等科学主体之间的内在关系十分有用。自引统计是对科学主体的文献自引关系进行定量描述(测度),为自引分析提供定量依据。文献自引的测度指标包括自引量、被自引量、自引率和被自引率。自引量代表主体的文献自引绝对强度,自引量大,说明主体的研究方向较为稳定,其研究课题、研究方法、学术观点具有连贯性、系统性,较少受外来因素的影响。自引率代表某主体对其自身的依赖性程度(简称自依赖性)。自引率高,则自依赖性强,说明作者较强地依赖于自己的前期研究,反之则表示可能其研究课题之间关联不大,或是作者注意吸收他人的研究成果。
3.学位论文引文分析系统
研究生学位论文引文分析系统基于引文分析理论及C6模式,运用PowerBuilder作为开发工具,进行系统的前台窗口对话界面设计,后台采用可靠性、安全性高的数据库管理工具Sql2000,从数据录入和信息统计两大部分出发,实现学位论文引文量统计(包括每篇论文引用的文献量、论文引用文献量最大最小值、频数分布、专业/学科平均引用文献量),按语种分布统计引用文献量及其相对数,按引用文献类型统计引用次数及其相对数,按年代统计某一年或某一时间段内引用文献数量,常用期刊文献按中外文分类统计引用量,常用图书文献按中外文分类统计引用量,计算馆藏文献收藏率,自引及引自导师文献人数及引文量统计等功能。
3.1流程设计
研究生学位论文引文分析系统为大学图书馆的馆藏建设提供了有力的工具,能有效地帮助图书管s购图书°系统流程,如图1所示:首先,用户登录,如果登录失败则结束,否则成功则转入下一步。其次,用户可以进行基本参数定义或进入引文信息管理录入或导入论文信息及论文的引文信息,引文信息输入成功后转入下一步设定引文分析的抽样参数。选择论文年代范围及论文级别等抽样参数后则可直接转入下一步,对设定范围内的论文应用引文分析方法对引文信息进行统计,对统计结果可导出报表。
3.2系统功能设计
基于科学性与使用性相结合的原则,对学位论文引文分析系统设计开发进行构思,其设计功能涵盖了基本参数设置、引文信息管理、引文统计管理和系统维护与管理四部分,基础数据管理是系统的基础,用以添加、删除或修改引文分析时所需要的基本参数,包括文献类型目录、文献语种目录、学科/专业目录以及抽样参数;引文信息管理是对研究生学位论文及引文数据的管理,主要实现对引文数据的录入、编辑、删除及导入等功能;引文统计管理是用户最为关注的功能,主要实现引文分布统计、特殊引证统计、常用文献统计、引文量统计等。系统维护与管理主要实现系统日常维护与管理,包括用户账号管理、用户权限设置、更改口令及在线帮助等,图2所示为引文分析系统软件结构。
系统的主要目标是将高校研究生学位论文的基本信息及论文的引文数据通过客户端准确的输入到计算机,利用本系统的功能对这些信息进行提取和加工,以产生图书馆管理人员所需的各种统计信息。引文分析系统是个典型的分析型处理系统引文信息统计是本系统的核心功能。该功能建立在引文分析法的理论上,并发展了其原有内容。在引文分布统计中,不但包括被引文量按频数分布、被引文年代分布、被引文按文献类型分布、被引文按语种分布,还包括了对引文语种、类型、年代的联合分布;在特殊引证统计中,除了自引统计,还针对研究生学位论文的特点,增加了对引自导师情况的统计功能。在常用文献统计模块中增加了对常用图书及其他文献的统计,从统计的结果不仅可以看出哪些是研究生所需要的书籍,而且还可以反映学术界的较受欢迎的书籍和网站。图3给出了常用文献统计界面。
3.3系统应用
为具体说明本引文分析系统的实施效果,现选取西北工业大学2001年共24部博士学位论文为分析对象,列举了引文分析系统在引文数量、语种、类型统计等方面的具体应用(文中的数据表均来自于系统导出的Excel表格)。由论文引文数量表及被引文量的频数分布可以看出该校博士生的文献需求量较大,并具有较强的吸收和消化文献信息的能力。以篇均引文量133篇为中心,形成了中间高,两极低的正态分布,如图4所示,基本符合被引文量的规律。
4.结术语
被引文类型分布的数据统计结果表明在期刊引文中,英文期刊占期刊引文的77.5%明显高于中文期刊,可见博士生更看重外文期刊的情报价值。此外,文献类型与语种的联合分布直观地反映出网络文献的情报价值逐渐被重视起来,尤其是英文的网页使用价值更高,这与信息技术的发展有着密切的关系。网络的应用,不但解决了近些年图书经费紧张,外文图书贵,引进量较少,用户获取困难的问题,而且还能让博士生更快、更直接的接近国际上的前沿技术。
研究生学位论文引文分析系统不仅能辅助大学图书馆科研人员了解相关专业文献的状况,分析、追踪热点研究领域、判断科学发展的宏观态势、进行科研绩效评估,而且有助于图书馆管理员充分利用有限的资金征订相对重要的刊物,提高馆藏质量,合理化馆藏结构。系统开发实现后,在大学图书馆的使甲过程中,性能稳定,具有良好的可操为大学图书馆更好地为教学和科研服务,加强高层次人才的培养和重点科学的建设打下了良好的基础。