• 回答数

    3

  • 浏览数

    127

小小的I
首页 > 期刊论文 > 文献检索方法探讨论文2000字

3个回答 默认排序
  • 默认排序
  • 按时间排序

快乐齐分享yeah

已采纳

文献分类与检索 内容提要】索引的研究、编制与文献流通形式变化息息相关。以计算机为主体的新技术在文献流通领域广泛应用,对索引理论研究及编制形成冲击,同时也带来变革的要求。10年来我国索引编制研究的起伏波动,说明索引研究应顺应社会文献流通需要而变革的重要性。书目编制、数据库建设及文献标引、检索语言方面等研究的发展趋势,也说明新技术运用对于文献整理带来的新特点、新要求。索引理论研究和编制要适应新形势、新情况,使索引编制更好地为社会服务。 索引是利用文献的工具,与文献流通形式的变化息息相关。10年来在索引编制理论研究方面发生了波动,说明我们关于索引编制的理念正随着文献整理现代化进步而发生深刻地变化。以往文献以纸质载体为主,索引编制靠人工,编排技术百多年没有发生多大改变,理论研究相对稳定。自从计算机及其相关电子技术应用于文献领域并成为新流通载体后,索引编制手段及索引形式发生了巨大变化,对传统理念产生很大冲击,这是造成索引研究波动的根本原因。本文就10年(1993-2002)来索引研究的状况进行剖析,以求得一二看法,为索引研究深入发展筹谋。 1 索引理论研究低落,相关研究发展强劲 我国很早就有索引的编撰和理论研究。上世纪二三十年代,现代索引编制理论和方法传到我国,曾掀起索引编制和研究的高潮,成果辉煌。新中国建立后,安定的社会环境,先进的政治制度,为学术研究提供了良好氛围,索引的理论研究和编制才真正掀起高潮。虽然文化大革命影响了索引事业的发展,但拨乱反正后,索引研究与编制又蓬勃兴起。尤其是80年代末期中国索引学会成立,领导索引研究,组织索引开发,开展学术交流,使我国索引事业走向规范化道路。 20世纪90年代初,是我国学术界研究索引理论的高峰期,1996年以后研究数量相对减少。《全国报刊索引(哲社版)》报道的信息显示了这种趋势(见表1)。但这种滑动并不表明我国索引研究衰退,而只能说明传统理论研究在减少,这是索引研究走向成熟的转折。能说明问题的是与索引研究相关学科或索引应用理论研究走向强劲。 表1 索引编制理论研究情况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 38 44 36 25 20 31 29 0 1 2 226传统编制 37 42 32 25 20 29 28 0 1 2 216自动化编制 1 2 4 0 0 2 1 0 0 0 10 1.1 书目的编制研究 书目编制在我国历史悠久,从汉代刘向著《七略》麇集众书始,书目便成为人们查检文献的重要工具。其六分群书并以此编排的方法,虽然有些幼稚,但已开索引先河。书目对保存文献并提供文献利用的功能,在两千多年历史中影响巨大。书目功能虽然主要不是用于文献查检,可在漫长岁月中人们主要靠书目来检索文献,以至许多学者将索引理论在中国的不完善归咎于书目的影响。直到现在关于书目编制的研究一直不衰。论述书目编制和数据库的文献就非常之多(不包括目录学理论、各种目录研究、图书馆编目及目录组织等文章,见表2)。尤其是运用自动化手段编制书目的研究逐渐增强。 表2 书目编制理论及数据库研究状况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 25 17 32 10 27 51 49 36 56 51 374书目编制 11 6 11 2 5 16 4 9 12 12 88传统编制 11 5 10 2 4 8 4 6 8 6 64自动化编制 0 1 1 0 1 8 0 3 4 6 24数据库研究 3 5 10 6 17 49 41 18 32 27 208 1.2 书目数据库建设研究 数据库是计算机技术应用于文献存储后的文献形态,大多数数据库就是电子版的书目。其多种检索途径又使它成为一部多功能索引。对它的研究90年代初期较少,而末期达到高峰,至今不减(见表2)。 1.3 文献标引研究 文献标引是揭示文献的途径,书目和索引的编制都离不开它。书目标引在于揭示群书篇目,索引标引所揭示的包括文献提名在内的各种知识点。在标引技术上没有本质区别,对它的研究一直是常见的选题。10年来研究文章比较多(见表3,不包括图书馆分类、编目所涉及的标引问题)。计算机技术大规模运用书目和索引编制以来,讨论自动化标引技术的文章越来越多,说明我国文献处理技术的研究已跟上世界发展的趋势。 表3 文献标引研究情况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 28 39 34 26 46 64 48 28 50 39 402传统理论 22 36 29 21 42 49 36 16 33 29 313自动化标引 6 3 5 5 4 15 12 12 17 10 89 1.4 文献检索语言研究 检索语言是人与文献对话的媒介,没有这种语言就无法做到文献规范化处理,就无法与文献沟通。特别是计算机技术运用以后,检索语言成为人机对话的途径。检索语言是具有一定规范标准的人工语言。例如《中国图书馆图书分类法》、《汉语主题词表》、以及各种形式的“关键词表”、“著者号码表”等。如今人们又提出用自然语言标引和检索计算机整理的文献,研讨热烈,有许多文章颇有见地,代表了检索语言的方向。如何在网络环境下进行文献检索的探讨日益见多(见表4,数据不包括图书馆日常使用的分类法、主题法等)。 表4 文献检索语言研究状况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 15 37 25 16 41 29 25 35 37 19 279传统理论 15 35 24 15 38 25 21 27 29 11 240自动化语言 0 2 1 1 3 4 4 8 8 8 39 相关学科研究的强劲势头,是索引研究和编制的必然结果,是索引研究实用化的反映,也是索引科学与各学科交叉和融合的结果。它告示我们对应用科学理论的探讨更应注重于实践。 2 索引研究发展曲线描述了电子技术应用文献流通领域的历程 10年中,关于索引编制、书目编制、书目数据库、文献标引、检索语言等研究,都经历了低→高→低的波动。驼峰从1995年开始至1999年,峰顶在1997-1998年。这正是以计算机为主体的现代电子技术在文献出版、存储、流通各环节普遍应用时期。计算机网络已成为人们实际使用的文献形式。其功能齐全、传播速度快、存储量大、收藏丰富、检索方便,准确率高,都是纸质文献所不及,有替代书本式文献之趋势。在人们心理(接受新生事物)、生理(适应并掌握操作技术)上产生了解、掌握、运用的欲望,因此关于新技术运用的研究探讨是必然现象。这种研究的热化,势必对传统理论形成冲击。但也要经历由浅入深、由一般介绍到深刻研究的进程。随着新技术的普及和运转稳定后,该方面研究就会减少,因而形成曲线。这个曲线记录着计算机及其网络技术在文献流通领域应用的历程。 2.1 计算机技术应用对传统索引理论研究的冲击 1994年研究索引理论的文章最多,随之逐渐减少(见表1)。与研究数据库建设、文献标引技术和检索语言的文章从1997年逐渐增多形成反差。形成这种反差的原因,就是学术界对计算机技术在文献流通领域普遍应用的反映与研究探讨。1994-1996年是这类研究的酝酿、写作、发表周期。传统理论逐渐减少合乎学术研究发展趋势,但“0”发展不正常,重视一种研究而忽视其他研究的倾向不可取。传统索引编制理论是一切新索引编制和索引形式的理论基础,对其研究不可轻视。 2.2 书目数据库研究的发展曲线(见图1),明显表明计算机及其网络在图书馆和其他文献传播行业中运用的过程 关于数据库研究的文章始见于80年代末90年代初,主要以介绍其功能作用为主。随着计算机在文献流通领域普及速度加快,文章数量开始增多,探讨数据库编制、检索以及制作技术等方面内容。1995年以后研究文章开始骤增,标志着计算机在以图书馆为主体的文献流通领域大规模应用。之后的三四年是计算机及其网络技术普及应用的高峰,至90年代末基本稳定,于是研究的文章相对减少。 附图 图1 文献标引、检索语言、书目数据库研究情况示意图 2.3 文献标引的研究与检索语言的研究相依共存,都是揭示文献的方式和手段 检索语言是人与文献载体(印刷体、电子形式等)沟通的语言,通过这种语言或代表这种语言的标识符号,把文献主体概念及其他有检索意义的特征表示出来,作为文献存储和检索的依据。没有检索语言,标引无法做到。不进行标引,检索语言便毫无用处。这是索引编制的重要途径。尤其是计算机技术应用于文献整理后,这两方面的研究尤为需要。从图1可以看出,研究的高峰恰恰也在计算机技术普遍应用时期,表明了学术界对文献标引及其检索语言编制的重视,同时也反映出这些学者与时俱进的学风和进取精神。计算机应用是索引理论研究史上最重大的事件,它不仅随着文献载体转变而变换其形态,而且关系到编制方法、操作过程等环节的改革与创新,更重要是索引编制的观念必须改变。这是索引编制史上一场重大的革命。 3 索引理论研究步伐不大但视野开阔 索引研究在众学科中是小字辈,成果相对较少。研究内容大都属于功能介绍、编制方法等探讨。随着科学研究深入发展,人们对文献需求广泛,索引理论研究便向着多元化、专深化发展。特别是新型文献载体的出现,开阔了索引理论研究的眼界。人们从多角度多方面探求揭示文献的途径,10年来总体研究步伐迈得不大,但研究视野比以前开阔了许多,这本身就是索引理论研究的进步。 3.1 总体趋势是传统理论研究在减少,但反映的是对新形势下索引研究的呼唤 索引理论研究在90年代还很稳定。表1中1993-1999年间研究文章数量起伏不大,而且较多。说明我国学术界中有一批学者在关心索引事业的发展。在这较好的氛围中,中国索引学会功不可没,组织学术研究,与国内外学界交流互通,做了许多工作。在90年代中期,中国索引学会编辑了《索引研究论从》丛书,包括《索引的昨天与明天》、《索引技术和索引标准》、《论索引和索引方法》、《报纸索引和新闻数据库》、《索引编制自动化》5个分册,共收论文114篇,聘请相关专家撰写了有关索引编制原理及自动化编制技术、文献标引及自动化标引技术、检索语言编制及计算机语言识别技术、书目数据库技术等方面的论文,论及问题之深,引用资料之多,学术见解之新,是索引理论研究多年未曾有过的,为中国索引理论发展起了导航作用。但近几年研究文章骤减的状况应该引起学术界注意,反思以往的研究是否适于新形势、新局面的需要,如何尽快改变传统观念,建立起新技术研究体系等,为网络环境下索引事业的发展奠定基础。 3.2 索引研究视野逐步扩大,适应了科学技术发展的大趋势 10年间报刊上共发表研究索引编制理论的文章203篇(这个数字是按原始文献发表时间统计),内容包括索引编制的一般理论、自动化编制、国外索引编制、各种类型索引研究、索引史研究、对著名索引学者和编制机构研究、索引专著研究、各种检索工具索引编制、古籍和现代著作索引编制等(见表5)。一般理论研究只占31.5%,其他专门研究占2/3还强。在64篇理论文章中谈功能作用类27篇,编制原理类26篇,论索引事业发展8篇,对中外索引编制理论进行比较研究的3篇。从各种角度来研究索引编制,反映出索引研究的生命力,能够适应科学技术进步而发展。 表5 1993-2002索引理论研究分类状况(按原始文献发表时间统计) 项 一般 自动 国外 索引 学者 索引 索引 检索 古籍 现代 总目 研究 化 索引 类型 机构 史 专著 工具 索引 著作 共数量 64 12 13 62 6 7 22 10 3 4 203 3.3 索引类型的研究数量较多,表明了索引学仍是一门实用科学 只要社会需要文献就有使用索引的要求。不论什么时候索引都是使用文献最便捷的途径。研究各种类型索引编制的文章62篇,几乎占1/3,论述了10多种索引的编制(见表6)。虽然平均文章不多,但反映出学术界给予的关注。这些索引功用不同,但都是人们所需要的。 表6 类型索引研究情况(按原始文献发表时间统计) 附图 3.4 计算机技术趋于稳定后,自动化方面的研究会减少,而研究索引类型、为学术著作编制索引会增多 新文献载体出现,文献利用形式发生变化,对这方面的研究必然要出现,但一旦普及并趋于稳定后,介绍或说明性文章就会减少,而逐渐转向深层次探讨,文章数量就要下落。研讨数据库文章逐渐减少就是例证。而在书目编制、文献标引、文献编排、检索语言等领域自动化研究逐渐增多则表明人们正在摆脱一般理论的研究,转向实用理论、专门编制方法的探讨。这也是计算机技术从应用到理论研究进展的过程。因此研究计算机应用于具体领域的文章会逐渐增多,逐步加深。 3.5 对索引史、索引研究与编制方面有贡献的学者或机构的研究逐渐减少,而对索引著作和检索工具索引编制研究的增多,反映出学术界更重视索引应用理论的研究,重视索引检索功能的探讨 虽然近3年这方面研究出现空白,但是暂时现象,是由于文献载体变换中出现的调整期。当计算机技术运行稳定后,由于机编速度快、抽词准确、编排规范等优点,节省大量编制成本和人工,势必会出现编撰索引的高潮。包括为古今中外各种学术研究而编制索引。索引成果不一定是印刷型,但功能一样。 只要文献功能没有消失,索引作用就不会消亡。从索引功利性能上讲,计算机在文献领域里广泛运用,为索引编制开辟了无限光明的前景,以往可望不可及的鸿篇巨著的索引编制,如今可能在俄倾之间,轻松愉快之中成就。文献使用步入了崭新的时代。 4 走出“理论”的困惑,建立大索引观,放眼于索引的实际应用 索引是“完备文献”的重要组成部分,“完备文献”应该是既有原始文献又兼有检索工具,使用起来非常方便。索引就是检索工具,依附于文献而存在。如今文献形态发生了巨大变化,索引研究也要洗心革面,使其适应新形势下人们对文献的需求。就索引研究的现状有几方面应引起我们重视。 4.1 应突破传统观念的束缚,树立创新思维 深刻研究当今人们利用文献的特点,研究计算机及其网络发展对文献传播的影响,网络环境下人们对文献使用的需求,以使索引编制适应人们未来利用文献的需要。索引理论研究既要适应文献形式变化,也应符合人们对所用文献的了解认知、心理适应和使用习惯。不能固守传统理论不放,理论与实用脱节,而失去指导实践的意义。建立创新思维,不能指望在短时间建立一套完备的新理论,应该树立新的思维方式方法,敢于创新,敢于超前,以社会需求为研究目的,充分发挥索引在揭示文献上的作用,为文献利用提供快车道。 4.2 冲破“太平研究”的藩篱,增强其理性探索 现在许多研究是以发表文章为第一需要,所以在理论探讨上,都愿说“套话”,打“贯腔”,生怕新东西叫不准,新提法不被编辑认同,因此众云亦云,以求太平。还有个倾向,不论什么样内容都把它写成“理论”型,带有“理论”味,把特征、规律、功能等大谈一番。这实不可取。理论研究就是为了解决实际问题,不要拘于一定的形式,内容深浅皆可,只要论述明白一个问题就是好文章。索引是一门实用科学,应注重编撰技术的研究与探讨。可在10年中关于书目、索引编排技术(不包括图书馆目录组织)的研究只有44篇(见表7),这个数量是讨论索引编制和书目编制理论314篇文章(见表1、2)的14%,占这次在《全国报刊索引》查阅1 247条信息的3.5%,表明对编制技术方面的忽视。重“理论”,轻技术,是理性不足的显现。反映出业界习惯于约定俗成的运作,不善于开发与创新。 表7 关于书目索引编排技术研究(按《全国报刊索引》报道时间统计) 年代 1999 2000 2001 2002 共计总共 4 2 5 5 3 6 2 6 2 9 44传统 3 2 3 4 2 3 0 4 1 2 24自动化 1 0 2 1 1 3 2 2 1 7 20 4.3 相当研究人员对先进技术了解不足,对索引未来发展认识模糊 表1中研究传统理念数量与研究自动化编制之比为216:10,不能不说明学术界对新技术反映生疏。许多选题和论述,都不谈计算机运用于文献整理后产生的影响,而谈那些已被许多人谈过的问题。这是因为对新技术运用不甚了解,自然就不会对未来发展有清醒认识。90年代初期计算机在我国应用较少,而西方先进国家已大规模使用,这时理论界就应有个介绍的高潮,可实际上这种文章很少。说明我国索引界对新技术应用反映不够,学术研究相对滞后。这种局面必须改变,不然的话我们索引研究与编制就会落伍,就会影响国家和民族科学文化事业的发展。 4.4 首先要深刻了解日新月异的新技术带来的挑战,需要我们不时地更新、探索、追求,才能跟上时代的步伐,才能为文献充分服务于社会保驾护航 要根据新形势下社会对文献的需要,开发出实用性强的索引产品,为社会服务。索引研究和编制要因时、因书、因人、因社会需求而宜,真能如此,社会怎不认同。 4.5 理论研究要与时俱进,与实践相结合,以社会实际需要为前提 对于原理的讨论是必须的,而专门编撰理论的研究更为重要。索引编制不顺应时代,脱离实际需求,就分文不值。要形成良好的研究氛围,建立需求→研究→新需求→新研究的机制,研究有针对性也就有了生命力。编制方法有了科学性,索引成果就会产生很大的社会效益。 4.6 树立大索引观,开阔研究领域,为振兴国家的科学、技术、文化及经济建设服务 一不能把眼光局限于印刷型文献,虽然电子型文献目前人们不常见,但它终会成为文献主流载体,所以要加强数据库检索方式方法研究的力度,使电子文献更科学的为人们服务。二不能只重视社会科学方面文献的索引编制,要把眼界扩展为流通于整个社会的文献,比如经济建设、工业生产、商业服务业等方面,凡是能通过整序而流通于社会的文献,或者说通过整序后有利于社会流通的文献,都应该纳入我们的视野。比如产业名录、商品名录等。三要注重与索引研究交叉学科的研究,这些学科间研究目的相近,技术相关,功能相连。诸如文献的分类、编目、标引、校仇、考证以及数据库制作技术等。虽然整理目的不同,但许多技术相近,可以相互利用,共同完成文献的揭示与整理。 4.7 中国索引学会应加强力量引导学术研究 除组织学术活动外,更应该在索引理论研究方向上起导向作用,介绍世界上先进的编制技术和索引研究动态,引进成果,翻译有影响的学术著作,加强学术交流,使社会各界了解索引的新发展。学会也应吸收工商界有关技术人员参加,使索引研究更加实用化,直接与工农业生产和国家的经济建设挂钩,更好地服务于国民经济建设。 总之,10年来索引研究有喜也有忧,忧中也有喜。喜,研究成果颇丰。忧,后几年传统研究滑坡。滑坡的原因是社会对新技术广泛应用的关注,人们要有个了解熟悉的过程。在这个过程中,人们会对传统技术进行重新审视、评价、借鉴并与新技术融会。后几年传统研究减少就是新旧技术融会调整的时期。今后定会出现个新理论蓬勃发展期,因此忧中又有喜。让我们做好理论准备,迎接新索引编制高潮的到来。

322 评论

茱莉亚罗伯杨

浅论医学文献检索的发展 作者:林丹红,苏晓宇,林晓华【关键词】 文献信息检索课;中医高等院校;中医教育中医药文献信息检索课自1985年首批中医院校开课至今已25年,目前国内所有中医院校均已开设检索课,有了相应的统编教材和自编教材、教参和一支教师队伍,不少院校还成立了检索教研室。通过对这门课程的学习,增强了中医院校大学生的信息意识,使广大同学普遍掌握了文献检索最基本的方法和技能,为今后的临床和科研奠定了基础。1医学文献索课程发展早在20世纪70年代,北京大学等已正式设立了《科技文献检索》课程,为国内文献检索教学拉开了序幕。《医学文献检索》课程早期仅在少数高校以选修课或讲座形式开展,但在1984年之后,在多方共同努力下,有了较快的发展。首先,国家教育部在1984和1985年分别颁布两个行政性文件,很大程度上促进了高校文献检索课程的发展。其次,1985年前后国家卫生部在四所医学高校设立了图书情报学系。医学文献检索课程成为此类专业的专业主干甚至核心课程,受到了前所未有的重视。最后,计算机技术和网络通信技术的发展,使文献检索教学有了飞跃式的发展。《医学文献检索》课程是一门工具课,一是文献检索的目的是为其他专业服务,通过检索文献为科研、教学或临床等提供医学信息:二是课程的主要内容是学会使用文献检索的工具书,以获得需要的文献信息。早期的文献检索是手工检索,以印刷版的工具书为检索对象,比如美国的《医学索引》、荷兰的《医学文摘》,虽然编排结构严谨,但使用依然不方便。1 985年,赖茂生主编的《科技文献检索》教材中,认为计算机检索在我国已经成为现实,在某些章节中也穿插了少量计算机检索的内容,但该教材内容以检索理论为主,检索工具的介绍则以国外工具书为主…。随着社会信息化程度的提高,手工检索逐步向计算机检索过渡,特别是通信技术的发展和网络的普及,检索对象由单一的出版物变成了形式多样的网络信息,人们逐渐接受并认可信息检索这一概念。2医学文献检索与医学信息检索概念使用现状2.1医学文献数据库文献分析通过检索中国生物医学文献数据库(CBM),对几个常用的概念(“文献检索”、 “信息检索”、“文献信息检索”、 “信息素养”或“信息素质”)使用频率做一比较,数据见表1,CBM数据库“文献检索”、 “信息检索”等文献数量表,时间截止到2012年12月18日。从表1可见,在医学科技文献中,使用“信息检索”概念始于1995年,使用“文献检索”概念的文献数量明显多于其他概念的使用,数据中不排除同一文献中出现两个以上概念。使用“文献检索”和“信息检索”概念的文献基本呈逐年递增趋势。 “信息检索”文献数量阶段性变化比较明显(将文献数量相近的连续年分为一个阶段),大致可分为四个阶段:1 995—1 998年,年均2.5篇;1 999—2000年,年均1 4篇;2001—2004年,年均37篇;2005—201 2年,年均57篇。而使用“文献检索”概念的文献数量虽然也处于增长态势,但变化趋势不明显,对照上述的四个阶段, “文献检索”概念的年均文献数量分别为,46篇、76篇、1 06.3篇、223篇。对万方医学网1998—2012年的文献分析,发现使用“文献检索”概念的文献数量(3453篇)明显多于使用“信息检索”概念的文献数量(907篇)(时间截止到20 1 2年1 2月1 8日),与CBM数据分析结果一致。2.2课程名称分析关于课程名称,张妍妍于201 O年1月1 1日在中国期刊网数据库中分别以“文献检索课”、“信息检索课”和“文献信息检索课”为检索词,分别得到1580条、360条、17条结果比‘。在万方医学网期刊库(2000—2012年数据)中以“文献检索课”、 “信息检索课”为检索词,分别得到291条、62条数据。在CBM(2000—2012年数据)中以“文献检索课”、 “信息检索课”为检索词,分别得到282条、58条数据。可见教育界对“文献检索”的认可度仍高于“信息检索”。2.3教材或论著名称分析关于教材或论著名称,目前出版的检索类教材,信息检索的种类的数量已经远超过文献检索U1。通过检索南京图书馆(江苏省级图书馆)中文图书库,对“文献检索”、 “信息检索”、“文献信息检索”、 “信息素养”使用频率做一比较,发现虽然使用文献检索为书名的图书种类(213种)多于信息检索(204种)。但21 3种文献检索类图书中有1 14种是在1993年前出版的,其中包括一些翻译文献,及检索工具介绍等。1993—2012年,信息检索使用

229 评论

大锅饭饭饭饭

信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 2.1 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。 下面主要说明基于专业内容的XML信息集成系统的构造方法: XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。 目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。 图2 2.2 网格中间件的设计 图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。 内部主要功能模块说明如下: (1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。 (2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。 (3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。 (4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。 (5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。 其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。

290 评论

相关问答

  • 文献检索课程论文2000字范文

    信息检索报告―――毕业论文《新型防水涂料的研究》文献检索报告课题分析防水涂料根据其用途可以分成很多种类,我本人毕业论文主要是研究其中应用最为广泛的建筑防水涂料.

    荷兰小乳牛 4人参与回答 2023-12-06
  • 文献与信息检索论文2000字

    科技文献是科技知识的最基本、最重要的表现形式,是科技情报源。

    708带你去吃吧 2人参与回答 2023-12-10
  • 文献检索精准方法论文

    高校文献信息检索的必要性与有效方法论文 在学习、工作中,大家总免不了要接触或使用论文吧,论文可以推广经验,交流认识。如何写一篇有思想、有文采的论文呢?以下是我收

    就爱装修 6人参与回答 2023-12-09
  • 药学文献检索论文2000字范文

    古典文学常见论文一词,谓交谈辞章或交流思想。当代,论文常用来指进行各个学术领域的研究和描述学术研究成果的文章,下面是关于药学论文范文的内容,欢迎阅读! 摘要:

    a淡淡小雨 2人参与回答 2023-12-06
  • 土木类文献检索的论文2000字

    土木工程人类 历史 上年代最久远“技术 科学 ”作为一种系统产业活动土木工程实质生产过程一种技术过程 土木工程也建造各类工程设施科学技术统称它既指工程建设

    桠枫娇娇 6人参与回答 2023-12-08