首页 > 论文发表知识库 > 文献检索重要性的论文

文献检索重要性的论文

发布时间:

文献检索重要性的论文

科技文献是科技知识的最基本、最重要的表现形式,是科技情报源。

文献分类与检索 内容提要】索引的研究、编制与文献流通形式变化息息相关。以计算机为主体的新技术在文献流通领域广泛应用,对索引理论研究及编制形成冲击,同时也带来变革的要求。10年来我国索引编制研究的起伏波动,说明索引研究应顺应社会文献流通需要而变革的重要性。书目编制、数据库建设及文献标引、检索语言方面等研究的发展趋势,也说明新技术运用对于文献整理带来的新特点、新要求。索引理论研究和编制要适应新形势、新情况,使索引编制更好地为社会服务。 索引是利用文献的工具,与文献流通形式的变化息息相关。10年来在索引编制理论研究方面发生了波动,说明我们关于索引编制的理念正随着文献整理现代化进步而发生深刻地变化。以往文献以纸质载体为主,索引编制靠人工,编排技术百多年没有发生多大改变,理论研究相对稳定。自从计算机及其相关电子技术应用于文献领域并成为新流通载体后,索引编制手段及索引形式发生了巨大变化,对传统理念产生很大冲击,这是造成索引研究波动的根本原因。本文就10年(1993-2002)来索引研究的状况进行剖析,以求得一二看法,为索引研究深入发展筹谋。 1 索引理论研究低落,相关研究发展强劲 我国很早就有索引的编撰和理论研究。上世纪二三十年代,现代索引编制理论和方法传到我国,曾掀起索引编制和研究的高潮,成果辉煌。新中国建立后,安定的社会环境,先进的政治制度,为学术研究提供了良好氛围,索引的理论研究和编制才真正掀起高潮。虽然文化大革命影响了索引事业的发展,但拨乱反正后,索引研究与编制又蓬勃兴起。尤其是80年代末期中国索引学会成立,领导索引研究,组织索引开发,开展学术交流,使我国索引事业走向规范化道路。 20世纪90年代初,是我国学术界研究索引理论的高峰期,1996年以后研究数量相对减少。《全国报刊索引(哲社版)》报道的信息显示了这种趋势(见表1)。但这种滑动并不表明我国索引研究衰退,而只能说明传统理论研究在减少,这是索引研究走向成熟的转折。能说明问题的是与索引研究相关学科或索引应用理论研究走向强劲。 表1 索引编制理论研究情况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 38 44 36 25 20 31 29 0 1 2 226传统编制 37 42 32 25 20 29 28 0 1 2 216自动化编制 1 2 4 0 0 2 1 0 0 0 10 书目的编制研究 书目编制在我国历史悠久,从汉代刘向著《七略》麇集众书始,书目便成为人们查检文献的重要工具。其六分群书并以此编排的方法,虽然有些幼稚,但已开索引先河。书目对保存文献并提供文献利用的功能,在两千多年历史中影响巨大。书目功能虽然主要不是用于文献查检,可在漫长岁月中人们主要靠书目来检索文献,以至许多学者将索引理论在中国的不完善归咎于书目的影响。直到现在关于书目编制的研究一直不衰。论述书目编制和数据库的文献就非常之多(不包括目录学理论、各种目录研究、图书馆编目及目录组织等文章,见表2)。尤其是运用自动化手段编制书目的研究逐渐增强。 表2 书目编制理论及数据库研究状况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 25 17 32 10 27 51 49 36 56 51 374书目编制 11 6 11 2 5 16 4 9 12 12 88传统编制 11 5 10 2 4 8 4 6 8 6 64自动化编制 0 1 1 0 1 8 0 3 4 6 24数据库研究 3 5 10 6 17 49 41 18 32 27 208 书目数据库建设研究 数据库是计算机技术应用于文献存储后的文献形态,大多数数据库就是电子版的书目。其多种检索途径又使它成为一部多功能索引。对它的研究90年代初期较少,而末期达到高峰,至今不减(见表2)。 文献标引研究 文献标引是揭示文献的途径,书目和索引的编制都离不开它。书目标引在于揭示群书篇目,索引标引所揭示的包括文献提名在内的各种知识点。在标引技术上没有本质区别,对它的研究一直是常见的选题。10年来研究文章比较多(见表3,不包括图书馆分类、编目所涉及的标引问题)。计算机技术大规模运用书目和索引编制以来,讨论自动化标引技术的文章越来越多,说明我国文献处理技术的研究已跟上世界发展的趋势。 表3 文献标引研究情况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 28 39 34 26 46 64 48 28 50 39 402传统理论 22 36 29 21 42 49 36 16 33 29 313自动化标引 6 3 5 5 4 15 12 12 17 10 89 文献检索语言研究 检索语言是人与文献对话的媒介,没有这种语言就无法做到文献规范化处理,就无法与文献沟通。特别是计算机技术运用以后,检索语言成为人机对话的途径。检索语言是具有一定规范标准的人工语言。例如《中国图书馆图书分类法》、《汉语主题词表》、以及各种形式的“关键词表”、“著者号码表”等。如今人们又提出用自然语言标引和检索计算机整理的文献,研讨热烈,有许多文章颇有见地,代表了检索语言的方向。如何在网络环境下进行文献检索的探讨日益见多(见表4,数据不包括图书馆日常使用的分类法、主题法等)。 表4 文献检索语言研究状况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 15 37 25 16 41 29 25 35 37 19 279传统理论 15 35 24 15 38 25 21 27 29 11 240自动化语言 0 2 1 1 3 4 4 8 8 8 39 相关学科研究的强劲势头,是索引研究和编制的必然结果,是索引研究实用化的反映,也是索引科学与各学科交叉和融合的结果。它告示我们对应用科学理论的探讨更应注重于实践。 2 索引研究发展曲线描述了电子技术应用文献流通领域的历程 10年中,关于索引编制、书目编制、书目数据库、文献标引、检索语言等研究,都经历了低→高→低的波动。驼峰从1995年开始至1999年,峰顶在1997-1998年。这正是以计算机为主体的现代电子技术在文献出版、存储、流通各环节普遍应用时期。计算机网络已成为人们实际使用的文献形式。其功能齐全、传播速度快、存储量大、收藏丰富、检索方便,准确率高,都是纸质文献所不及,有替代书本式文献之趋势。在人们心理(接受新生事物)、生理(适应并掌握操作技术)上产生了解、掌握、运用的欲望,因此关于新技术运用的研究探讨是必然现象。这种研究的热化,势必对传统理论形成冲击。但也要经历由浅入深、由一般介绍到深刻研究的进程。随着新技术的普及和运转稳定后,该方面研究就会减少,因而形成曲线。这个曲线记录着计算机及其网络技术在文献流通领域应用的历程。 计算机技术应用对传统索引理论研究的冲击 1994年研究索引理论的文章最多,随之逐渐减少(见表1)。与研究数据库建设、文献标引技术和检索语言的文章从1997年逐渐增多形成反差。形成这种反差的原因,就是学术界对计算机技术在文献流通领域普遍应用的反映与研究探讨。1994-1996年是这类研究的酝酿、写作、发表周期。传统理论逐渐减少合乎学术研究发展趋势,但“0”发展不正常,重视一种研究而忽视其他研究的倾向不可取。传统索引编制理论是一切新索引编制和索引形式的理论基础,对其研究不可轻视。 书目数据库研究的发展曲线(见图1),明显表明计算机及其网络在图书馆和其他文献传播行业中运用的过程 关于数据库研究的文章始见于80年代末90年代初,主要以介绍其功能作用为主。随着计算机在文献流通领域普及速度加快,文章数量开始增多,探讨数据库编制、检索以及制作技术等方面内容。1995年以后研究文章开始骤增,标志着计算机在以图书馆为主体的文献流通领域大规模应用。之后的三四年是计算机及其网络技术普及应用的高峰,至90年代末基本稳定,于是研究的文章相对减少。 附图 图1 文献标引、检索语言、书目数据库研究情况示意图 文献标引的研究与检索语言的研究相依共存,都是揭示文献的方式和手段 检索语言是人与文献载体(印刷体、电子形式等)沟通的语言,通过这种语言或代表这种语言的标识符号,把文献主体概念及其他有检索意义的特征表示出来,作为文献存储和检索的依据。没有检索语言,标引无法做到。不进行标引,检索语言便毫无用处。这是索引编制的重要途径。尤其是计算机技术应用于文献整理后,这两方面的研究尤为需要。从图1可以看出,研究的高峰恰恰也在计算机技术普遍应用时期,表明了学术界对文献标引及其检索语言编制的重视,同时也反映出这些学者与时俱进的学风和进取精神。计算机应用是索引理论研究史上最重大的事件,它不仅随着文献载体转变而变换其形态,而且关系到编制方法、操作过程等环节的改革与创新,更重要是索引编制的观念必须改变。这是索引编制史上一场重大的革命。 3 索引理论研究步伐不大但视野开阔 索引研究在众学科中是小字辈,成果相对较少。研究内容大都属于功能介绍、编制方法等探讨。随着科学研究深入发展,人们对文献需求广泛,索引理论研究便向着多元化、专深化发展。特别是新型文献载体的出现,开阔了索引理论研究的眼界。人们从多角度多方面探求揭示文献的途径,10年来总体研究步伐迈得不大,但研究视野比以前开阔了许多,这本身就是索引理论研究的进步。 总体趋势是传统理论研究在减少,但反映的是对新形势下索引研究的呼唤 索引理论研究在90年代还很稳定。表1中1993-1999年间研究文章数量起伏不大,而且较多。说明我国学术界中有一批学者在关心索引事业的发展。在这较好的氛围中,中国索引学会功不可没,组织学术研究,与国内外学界交流互通,做了许多工作。在90年代中期,中国索引学会编辑了《索引研究论从》丛书,包括《索引的昨天与明天》、《索引技术和索引标准》、《论索引和索引方法》、《报纸索引和新闻数据库》、《索引编制自动化》5个分册,共收论文114篇,聘请相关专家撰写了有关索引编制原理及自动化编制技术、文献标引及自动化标引技术、检索语言编制及计算机语言识别技术、书目数据库技术等方面的论文,论及问题之深,引用资料之多,学术见解之新,是索引理论研究多年未曾有过的,为中国索引理论发展起了导航作用。但近几年研究文章骤减的状况应该引起学术界注意,反思以往的研究是否适于新形势、新局面的需要,如何尽快改变传统观念,建立起新技术研究体系等,为网络环境下索引事业的发展奠定基础。 索引研究视野逐步扩大,适应了科学技术发展的大趋势 10年间报刊上共发表研究索引编制理论的文章203篇(这个数字是按原始文献发表时间统计),内容包括索引编制的一般理论、自动化编制、国外索引编制、各种类型索引研究、索引史研究、对著名索引学者和编制机构研究、索引专著研究、各种检索工具索引编制、古籍和现代著作索引编制等(见表5)。一般理论研究只占,其他专门研究占2/3还强。在64篇理论文章中谈功能作用类27篇,编制原理类26篇,论索引事业发展8篇,对中外索引编制理论进行比较研究的3篇。从各种角度来研究索引编制,反映出索引研究的生命力,能够适应科学技术进步而发展。 表5 1993-2002索引理论研究分类状况(按原始文献发表时间统计) 项 一般 自动 国外 索引 学者 索引 索引 检索 古籍 现代 总目 研究 化 索引 类型 机构 史 专著 工具 索引 著作 共数量 64 12 13 62 6 7 22 10 3 4 203 索引类型的研究数量较多,表明了索引学仍是一门实用科学 只要社会需要文献就有使用索引的要求。不论什么时候索引都是使用文献最便捷的途径。研究各种类型索引编制的文章62篇,几乎占1/3,论述了10多种索引的编制(见表6)。虽然平均文章不多,但反映出学术界给予的关注。这些索引功用不同,但都是人们所需要的。 表6 类型索引研究情况(按原始文献发表时间统计) 附图 计算机技术趋于稳定后,自动化方面的研究会减少,而研究索引类型、为学术著作编制索引会增多 新文献载体出现,文献利用形式发生变化,对这方面的研究必然要出现,但一旦普及并趋于稳定后,介绍或说明性文章就会减少,而逐渐转向深层次探讨,文章数量就要下落。研讨数据库文章逐渐减少就是例证。而在书目编制、文献标引、文献编排、检索语言等领域自动化研究逐渐增多则表明人们正在摆脱一般理论的研究,转向实用理论、专门编制方法的探讨。这也是计算机技术从应用到理论研究进展的过程。因此研究计算机应用于具体领域的文章会逐渐增多,逐步加深。 对索引史、索引研究与编制方面有贡献的学者或机构的研究逐渐减少,而对索引著作和检索工具索引编制研究的增多,反映出学术界更重视索引应用理论的研究,重视索引检索功能的探讨 虽然近3年这方面研究出现空白,但是暂时现象,是由于文献载体变换中出现的调整期。当计算机技术运行稳定后,由于机编速度快、抽词准确、编排规范等优点,节省大量编制成本和人工,势必会出现编撰索引的高潮。包括为古今中外各种学术研究而编制索引。索引成果不一定是印刷型,但功能一样。 只要文献功能没有消失,索引作用就不会消亡。从索引功利性能上讲,计算机在文献领域里广泛运用,为索引编制开辟了无限光明的前景,以往可望不可及的鸿篇巨著的索引编制,如今可能在俄倾之间,轻松愉快之中成就。文献使用步入了崭新的时代。 4 走出“理论”的困惑,建立大索引观,放眼于索引的实际应用 索引是“完备文献”的重要组成部分,“完备文献”应该是既有原始文献又兼有检索工具,使用起来非常方便。索引就是检索工具,依附于文献而存在。如今文献形态发生了巨大变化,索引研究也要洗心革面,使其适应新形势下人们对文献的需求。就索引研究的现状有几方面应引起我们重视。 应突破传统观念的束缚,树立创新思维 深刻研究当今人们利用文献的特点,研究计算机及其网络发展对文献传播的影响,网络环境下人们对文献使用的需求,以使索引编制适应人们未来利用文献的需要。索引理论研究既要适应文献形式变化,也应符合人们对所用文献的了解认知、心理适应和使用习惯。不能固守传统理论不放,理论与实用脱节,而失去指导实践的意义。建立创新思维,不能指望在短时间建立一套完备的新理论,应该树立新的思维方式方法,敢于创新,敢于超前,以社会需求为研究目的,充分发挥索引在揭示文献上的作用,为文献利用提供快车道。 冲破“太平研究”的藩篱,增强其理性探索 现在许多研究是以发表文章为第一需要,所以在理论探讨上,都愿说“套话”,打“贯腔”,生怕新东西叫不准,新提法不被编辑认同,因此众云亦云,以求太平。还有个倾向,不论什么样内容都把它写成“理论”型,带有“理论”味,把特征、规律、功能等大谈一番。这实不可取。理论研究就是为了解决实际问题,不要拘于一定的形式,内容深浅皆可,只要论述明白一个问题就是好文章。索引是一门实用科学,应注重编撰技术的研究与探讨。可在10年中关于书目、索引编排技术(不包括图书馆目录组织)的研究只有44篇(见表7),这个数量是讨论索引编制和书目编制理论314篇文章(见表1、2)的14%,占这次在《全国报刊索引》查阅1 247条信息的,表明对编制技术方面的忽视。重“理论”,轻技术,是理性不足的显现。反映出业界习惯于约定俗成的运作,不善于开发与创新。 表7 关于书目索引编排技术研究(按《全国报刊索引》报道时间统计) 年代 1999 2000 2001 2002 共计总共 4 2 5 5 3 6 2 6 2 9 44传统 3 2 3 4 2 3 0 4 1 2 24自动化 1 0 2 1 1 3 2 2 1 7 20 相当研究人员对先进技术了解不足,对索引未来发展认识模糊 表1中研究传统理念数量与研究自动化编制之比为216:10,不能不说明学术界对新技术反映生疏。许多选题和论述,都不谈计算机运用于文献整理后产生的影响,而谈那些已被许多人谈过的问题。这是因为对新技术运用不甚了解,自然就不会对未来发展有清醒认识。90年代初期计算机在我国应用较少,而西方先进国家已大规模使用,这时理论界就应有个介绍的高潮,可实际上这种文章很少。说明我国索引界对新技术应用反映不够,学术研究相对滞后。这种局面必须改变,不然的话我们索引研究与编制就会落伍,就会影响国家和民族科学文化事业的发展。 首先要深刻了解日新月异的新技术带来的挑战,需要我们不时地更新、探索、追求,才能跟上时代的步伐,才能为文献充分服务于社会保驾护航 要根据新形势下社会对文献的需要,开发出实用性强的索引产品,为社会服务。索引研究和编制要因时、因书、因人、因社会需求而宜,真能如此,社会怎不认同。 理论研究要与时俱进,与实践相结合,以社会实际需要为前提 对于原理的讨论是必须的,而专门编撰理论的研究更为重要。索引编制不顺应时代,脱离实际需求,就分文不值。要形成良好的研究氛围,建立需求→研究→新需求→新研究的机制,研究有针对性也就有了生命力。编制方法有了科学性,索引成果就会产生很大的社会效益。 树立大索引观,开阔研究领域,为振兴国家的科学、技术、文化及经济建设服务 一不能把眼光局限于印刷型文献,虽然电子型文献目前人们不常见,但它终会成为文献主流载体,所以要加强数据库检索方式方法研究的力度,使电子文献更科学的为人们服务。二不能只重视社会科学方面文献的索引编制,要把眼界扩展为流通于整个社会的文献,比如经济建设、工业生产、商业服务业等方面,凡是能通过整序而流通于社会的文献,或者说通过整序后有利于社会流通的文献,都应该纳入我们的视野。比如产业名录、商品名录等。三要注重与索引研究交叉学科的研究,这些学科间研究目的相近,技术相关,功能相连。诸如文献的分类、编目、标引、校仇、考证以及数据库制作技术等。虽然整理目的不同,但许多技术相近,可以相互利用,共同完成文献的揭示与整理。 中国索引学会应加强力量引导学术研究 除组织学术活动外,更应该在索引理论研究方向上起导向作用,介绍世界上先进的编制技术和索引研究动态,引进成果,翻译有影响的学术著作,加强学术交流,使社会各界了解索引的新发展。学会也应吸收工商界有关技术人员参加,使索引研究更加实用化,直接与工农业生产和国家的经济建设挂钩,更好地服务于国民经济建设。 总之,10年来索引研究有喜也有忧,忧中也有喜。喜,研究成果颇丰。忧,后几年传统研究滑坡。滑坡的原因是社会对新技术广泛应用的关注,人们要有个了解熟悉的过程。在这个过程中,人们会对传统技术进行重新审视、评价、借鉴并与新技术融会。后几年传统研究减少就是新旧技术融会调整的时期。今后定会出现个新理论蓬勃发展期,因此忧中又有喜。让我们做好理论准备,迎接新索引编制高潮的到来。

科技文献是科技知识的最基本、最重要的表现形式,是科技情报源。而科技文献检索是获得科技情报的最基本、最重要的途径和手段,主要包括检索工具和检索方法两方面的主要内容。通过这学期的学习和最后亲自上网查阅科技文献期刊,让我受益匪浅。我所查阅的三篇文献来自《中国期刊全文数据库》,让我对文献的检索有了一定的了解,甚至对文献的检索方式都有一定的了解。通过什么方式查询会查到什么样的结果。 科技文献的作用毋庸置疑,对我们学生的学习有着莫大的帮助,无论是拓宽知识面还是巩固所学的知识,我们都能找到一定的文献,阅读并参透别人的思想。对自己的文献的发表,对学生的论文都有一定的助力。而且他的作用并不是如此简单的,你可以通过不同时间的文献可以知道计算机或者通信发展的历程。了解最近发表的文献和明白将来的发展趋势。对自己以后的方向的定位提供了很好很实用的方向标。让我们在以后的学习里,朝着这个方向提供动力,提供一些专业的基础。不仅仅如此,他可以让你的英语水平得到一定的提高,一些国外的文献不仅有科研价值,而且还具备了最前沿的潜质。因此,通过读一些简单的英文文献,提高自己的英语水平。只有自己的英语水平提高了,我们才能读的懂一些大型甚至是高深的文献。赞同2| 评论

学习文献检索的重要性论文

高校文献信息检索的必要性与有效方法论文

在学习、工作中,大家总免不了要接触或使用论文吧,论文可以推广经验,交流认识。如何写一篇有思想、有文采的论文呢?以下是我收集整理的高校文献信息检索的必要性与有效方法论文,希望能够帮助到大家。

摘要: 随着互联网信息、知识的不断更新,文献信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段,成为继续学习的重要工具。通过探讨文献信息检索的科学定义及高校信息检索的必要性,进而从文献信息检索流程角度提出高校文献信息检索的途径和策略。

关键词: 文献;信息检索;策略;

文献信息是巨大的社会财富,它伴随着社会的广泛进步而迅速更新和积累,在带给我们越来越便捷的同时,也必然给阅读、查找和充分利用信息带来一定困难。为解决庞大的科学文献和个人特定需求之间的矛盾,便产生了文献信息检索,文献信息的检索和利用已经发展成为一门专门的学科,高校信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段。

一、文献信息检索定义

“信息检索(Information Retrieval)”一词最早出现在20世纪50年代,有广义和狭义之分。

广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。也就是说,信息检索包括两个环节和内容:“存”和“取”。狭义的信息检索则专指信息检索过程中的第二个环节,即从信息集合中找出所需要信息的过程,也就是我们常说的信息检索、信息查找或信息搜索等术语。

信息检索按照检索对象的不同又可以分为文献检索、数据检索、事实检索。本文侧重于文献检索,即通过检索文献来获取所需要的信息、知识、情报[1]。

二、高校文献信息检索的必要性

(一)信息的多元化需要师生具备一定的信息评价和筛选能力

在当今互联网、信息化社会,人们无时无刻不在利用信息资源进行生产、生活和创新创造。但面对浩瀚的信息海洋,信息流和信息量越来越多、越来越大,人们进行检索和利用的困难也就越来越大。随着4G网络的覆盖和智能手机的普及,人们轻而易举就能接触各种各样的信息,各类门户网站、微博、微信、QQ等推送信息的常态化,一方面丰富了我们的日常生活,拓宽了我们的视野;另一方面也给我们对于浩瀚无垠的信息的过滤、评价、筛选和运用带来极大的挑战[2]。在纷繁复杂的信息洪流中,哪些是对我们有益的,哪些会给我们带来负面的影响,都要求我们具备一定的信息鉴别和评价的能力,需要我们具备较高的信息素养和信息处理能力。文献信息检索能力成为高校师生应掌握的基本学习技能之一,是继续学习的重要手段,在教学、学习、科研和生活方面发挥巨大作用。

(二)学校对学生的信息素养教育重视程度不够

早在20世纪70年代,联合国教科文组织就对“文盲”下了新的定义:在当今科学技术飞速发展的时代,文盲已不是不识字的人,而是不知道如何获取知识的人。我国国家教委要求,全国各大院校要全面普及开设文献信息检索课,这对大学生普及文献检索知识、提高信息素养、增强信息检索的兴趣、提高信息检索能力都具有十分重要的现实意义[3]。然而现状却是,全国各大高校开设的信息检索课程大部分是以选修课的形式存在,学生自愿选择,主要目的也就是为了修够学分,以这样的方式开展信息教育并不能取得理想的效果,这种重专业、轻信息素养的教育还普遍客观存在。

(三)信息检索助力高校科学研究

科学研究是高等学校重要职能之一,大学对整个社会的科技进步与发展起着重要引领与推动作用。现代科学技术的迅猛发展,各个学科的交叉和渗透一方面促使了新的学科不断涌现,源源不断地出现大量新的知识;另一方面,知识的老化和被淘汰的速度也会越来越快。作为高校科研人员,必须具备一定的信息素养,即敏锐的信息意识、发现高质量信息的能力、信息的选择和评价的能力以及如何正确地引用文献、尊重他人知识产权的能力。作为科学研究者,必须时时了解学科最前沿的动态,掌握最新的知识,这样才能研究出有价值的科研成果,而文献信息检索能力就是科学研究人员必不可少的要素之一。为了减少课题的重复研究,提高研究的成功率,科研人员在研究一项课题之前,必须要进行的相关的资料收集和文献检索。在确定选题之后同样要科学合理运用文献信息检索方法开展文献信息甄别筛选和运用,进行进一步研究,保障研究成果的承续性,进而推动科学研究向纵深发展。

三、高校文献信息检索的策略

(一)分析检索问题

在解决一个问题之前,我们首先要做的就是分析问题,对问题的分析是解决问题的关键所在。分析一个问题我们可以从如下几个方面考虑:首先,提问者是谁。同样一个问题,教师跟学生对内容的层次要求就不同;一个专业性的问题,高校专业教师和学生对问题的要求也会不同。其次,问题的性质。不同的问题对应不同的要求,如果我们对一个概念需要界定,或者需要查找与自己所撰写文章密切相关的文献,这时对概念的界定和对文献的检索就需要“准”。如果我们要做一个论文的选题的确定或者做一个项目的申报、企业新产品的开发,在做这些工作之前,我们需要对前人的研究成果做一个全面的普查,这类型的问题的要求就是“全”。再如,我们要了解某个领域的趋势前沿和最新进展,对这类问题的要求就是查找的资料必须要有新颖性,即“新”。再有,对一些技术性强的问题,如专利的申报、企业新产品的开发、某一项技术的引进等,对这类问题的检索要求是“细”。再次,学科和主题。如果只是单一的某一个学科或主题,那么只需要找到收录这个学科资源的数据库进行检索就可以。但是有很多跨学科领域研究的问题如果只是在一个数据库查找,就会造成资源的不全面。第四,资源类型。我们熟知的资源类型有学位论文、会议论文、期刊论文、图书、专利、标准等等,不同的资源类型收录的特点也不同,如内容的深度、系统性、时效性都不同,研究课题不同,对资源类型的要求也不同。第五,资源的范围。查找资料的时候往往对范围进行限定,范围包括时间范围、地域范围、语种范围等。

(二)选择合适的检索工具

分析检索问题之后,我们需要选择合适的检索工具。常用的检索工具有搜索引擎和商业数据库。搜索引擎它具有检索过程不收费、面向所有的终端用户、对用户检索水平要求较低等特点,常用的搜索引擎有谷歌、百度、搜狗、必应等。商业性数据库的特点有:第一,检索需要收费或者授权,高等学校一般都与相关商业数据库合作,校园网环境下一些商业数据库是可以免费使用的。第二,它们的功能和收录资源的范围有明确的定位,如只能检索专利信息的德温特专利创新索引、只能检索学位论文的ProQuest Digital Dissertations数据库、只能检索会议论文的CPCI、只收录世界上顶尖期刊论文的Web Of Sicence的三大引文索引数据库等。第三,这些数据库都有自己的一套检索技术,因此对用户的检索水平要求较高。除了上述的专业性数据库之外,还有一些因经常使用被我们熟知的综合性数据库,如中国知网、维普、万方等。

除了搜索引擎和商业数据库之外,还有一些其他可以免费获取资源的途径,如主题指南(导航)、数字图书馆、政府的网站(数据库)、电子预印本、博客、微博、机构知识库等途径。因此,我们只有熟知各个不同的检索工具以及它们的特色才能检索到不同的文献类型。 高校师生要立足本职工作和学习需要选取适合的文献信息检索工具,助力科学研究、日常教学和学习生活。

(三)抽取恰当的关键词

选取科学适当的检索工具后,下一步工作就是确定检索关键词。

首先,要确定研究问题有哪些核心关键词(Core Keywords),抽取核心关键词可以依据汉语主题词表,如查询表述具体事物名称的名词术语、事物的状态或现象的名词术语、科学分类的名词术语、研究方法、技术方法的名词术语、工艺方法、加工技术的名词术语、化学元素、化合物、金属材料与合金的名词术语、国家名称、地名、组织机构名称以及文献类型、文献载体的名词术语等。其次,为了保证查全率和查准率,应当注意这些核心关键词有无其他的表述方式,如同义词、近义词、与之相关的词、有无缩写形式或者全称形式、有无相关的组织机构、英文的单数复数形式等,如果有,分别检索。第三,避免用太泛的关键词,应选用专指性很强的关键词。例如,我们要检索计算机软件有关的视频资料,如果我们只输入“计算机操作视频”这样类似的检索式,当然也可以找到一些检索结果,但缺乏针对性。我们不妨直接明确输出我们要学习的.软件的名称,如“Powerpoint 视频”,这样检索出的结果的相关性就要高很多。第四,学会利用专业术语。不同的学科,他们的专业术语表述不同,如信息检索、克隆人、电子图书等都属于专业术语,对这些专业术语进行检索的时候,尽可能加上双引号进行精确检索,可以提高检索结果的相关度和准确度。

(四)构造检索式

确定几组关键词后,下一步工作就是要构造检索式。即要用一定的运算符号将这些关键词连接起来,形成具有一定意义的表达式,也叫检索提问表达式。构造检索式具有一定的专业性,这就需要依托信息检索课和上机课来实现,重点指导学生如何正确构造检索式。构造检索式,可以从以下几个方面考虑:首先要明确检索词之间的逻辑关系,用布尔逻辑运算符AND、OR、NOT将它们连接起来;然后需要考虑检索词之间的位置是否需要进行限定,如果需要则根据不同的检索工具使用一定的检索手段对检索词的位置进行限定;对于一些专有名词,是否需要作精确检索,如果需要则给检索词加上双引号;为了使检索结果更加精准,我们还需要把检索限制在某一个范围当中,比如限制在某个字段,语种、出版年、摘要、题名等不同的字段作一个限定,还有其他的各种限定,如文献类型、机构的域名的类型等等。当然,不同的检索工具可能有自己特有的语法用法,我们应当学会灵活应用和变通不同的检索方法和技巧。

(五)筛选检索结果

通过选取关键词、构造检索式进行检索后,会得到众多检索结果,但在众多的检索结果当中,并不是每一条都是我们所需要的,所以我们要对检索结果作一些筛选。首先,依据结果的相关度,我们得到的检索结果是否与我们要检索内容的主题相关,是否与我们所需要的信息内容的层次、深浅度相匹配;其次,要看作者,即要看作者的权威性和影响力,这直接影响到我们检索到的文献信息的质量,对于一些没有显示作者的网站来说就缺乏一定的严谨性;再次,要看检索结果的时效性,往往最新的观点、新的理论、新的解决方案都来源于最新发表的文献信息。另外,要合理判断检索信息的公正性、准确性,避免使用错误的、缺乏科学论证的文献资料,等等。

(六)调整检索策略

经过前面的检索步骤得出的检索结果当中,如果还是没有理想的检索结果,就需要调整检索策略。首先,当检索结果太少的时候,则需要扩大检索范围。比如看检索词是否有近义词、同义词、上位词,将这些检索词用布尔逻辑语OR来连接,可以很好的扩大检索范围。再如,利用宽容的检索方法检索,像英文单词中经常会有一部分相同的部分,那些可变换的部分就可以用截词检索代替。还有英文名词的单复数形式,如果我们要找“女性”的相关资料,只输入“woman”检索就会漏检很多,还应该对它的复数形式“women”也进行检索。还比如英文的缩写形式,比如我们要找“慕课”相关的文献,如果我们只是输入“慕课”就可能会漏掉相关重要信息,我们还应该用它的缩写形式去检索,输入“MOOC”或者它的英文全称“Massive Open Online Courses”,这样分别去检索才不会遗漏掉重要文献资料。如果是因为我们的限制太多导致检索结果太少,那么可以考虑去掉一两个限制。因为每一个检索工具收录的范围和内容有一定的侧重点和有限性,所以我们也可以考虑更换不同的检索工具进行检索。其次,当检索结果太多的时候,我们也应该采取一定的措施缩小检索范围。例如用布尔逻辑运算符AND和NOT连接检索词,用AND多加几个检索词进行限定,或者用NOT排除一些限定;使用检索词的下位词进行检索;对一些专有名称,专业术语加上引号进行精确检索也可以缩小检索范围,从而实现更精确地检索;对检索词加上一定的限制,如对它的时间、机构、网站、文献格式等进行一个限制;除此之外,我们还可以利用检索工具本身所具备的二次检索功能来筛选检索结果,从而缩小检索结果。

(七)求助专业人士

如果通过上述途径仍然不能取得理想的文献信息资料,我们可以通过一些掌握现代技术的、具有丰富科学研究经验的专业人士来获取我们想要的文献信息。例如,有很多图书馆的网站主页上都会有在线咨询的功能,我们可以通过在线咨询的服务功能从图书馆员那里获取文献信息资料。很多图书馆都开通了馆际互借的功能,通过馆际互借,我们可以共享很多成员馆的文献信息资源,而这些庞大且宝贵的文献信息资源经常会被老师们和学生们忽略掉。再如,我们还可以求助一些在线的问题回答类的网站,像百度知道、知乎等,还有国外比较权威的网站像AIIExperts等,通过询问这些网站上的一些权威专家,也可以为我们的学习和研究提供宝贵的意见。

总之,互联网是一个非常开放的空间,如果善于应用,我们不仅可以贡献自己的经验和智慧来为他人服务,我们也可以共享他人的智慧来为我们自己的研究和学习服务。

四、结语

信息检索的最终目的是通过解决各种各样的问题,进而提高学习和科学研究能力。正如美国文献家赫伯特所言:“知识的一半,是知道到哪里去寻找它。明日的文盲,不是不能阅读的人,而是缺乏检索能力的人。”互联网时代文献信息检索能力比文献信息本身更重要。来自美国的非盈利性机构“今日信息科学网站”的一份报告“Information Literacy A Skill for Life”也在呼吁互联网时代新的技能,即媒体与信息素养。由此看来,信息素养的培养不光适用于高校信息素养教育,同时也具有世界性的重要意义。文献信息知识伴随着社会的发展而迅速更新和积累,高校应强化对信息检索的指导,提高信息检索能力,助力高校教学和科学研究。

五、参考文献

[1]陈振标.文献信息检索、分析与应用[M].北京:海洋出版社,2016:19.

[2]陆和建,姜丰伟.新信息环境下高校信息检索课教学方式的优化策略[J].大学图书馆学报,2015(2):96—99,112.

[3]万爱群,杨红.浅谈开设《信息检索与利用》课程的必要性[J].广西质量监督导报,2007(6):105—118.

文献检索的意义 文献检索是利用文献获取知识、信息的基本手段。无论对读书治学和宏观决策的需要来说,都有着重要的意义。 1·文献检索是读书治学的基本功。文献检索技能是智能的重要组成部分。无论是在求学还是在工作期间,都需要进行各种智能的培养和训练。掌握了文献检索方法如同有了打开知识宝库的金钥匙、泛舟书海的指南,它有助于指引读书治学门径,正如清代学者张之洞在《书目答问·略例》中所指出的:“读书不知要领,劳而无功;知某书宜读而不得精注本,事倍功半。”“得门而入,事半功倍。”可见掌握一定的文献检索知识——目录学知识的重要性。《荀子·劝学篇》云:“不积硅步,无以至千里;不积细流无以成江海。”从文献检索角度来说,所谓“硅步”和“细流”就是文献检索技能及对检索工具书刊的鉴别、利用知识的积累。对在校大学生来说,正是接受这种技能训练的黄金时代。 2·文献检索是科学研究的组成部分。科学研究首先是从课题调研掌握资料起步的。文献检索有助于掌握本课题研究的进展动态,开拓思路、避免重复劳动,把研究水平提到新的高度。科研成果的评估与鉴定,也需要通过文献检索——资料的查新活动,才能作出正确的结论。特别是在社会科学文献检索系统尚不完备的条件下,文献检索能力的高低,往往影响着科研成果的价值。 3·文献检索是科学决策的先导。信息化时代的经济管理、政治控制、艺术创造乃至心理状态的演变等,均受到各种社会信息的影响。适时掌握有关信息才能实现有效的管理。因此说,文献检索是进行科 学决策的先行工作。 邓小平同志“开发信息资源,为四化建设服务”的题词,不仅深刻地揭示了信息是宏观决策的重要智力资源,也指出开发信息资源的目的。从信息开发手段来说,也是对文献检索意义的高度概括。 总之,文献检索能力是从事物质文明生产和精神文明建设不可缺少智能之一。在某种意义上说,国家经济实力的差距,归根结底是国民吸收社会信息能力上的差距。而文献检索能力正是衡量吞吐社会信息能力的一个重要标识。

文献检索就是从大量的文献中迅速、准确地查出与特定的科学研究课题有关的资料。文献检索在大学生毕业论文撰写中有着不可替代的重要作用。1、文献检索便于继承和借鉴前人的科研成果,避免重复研究。2、文献检索有利于节省大学生查找文献时间,提高毕业论文质量。3、文献检索启发学生的创造性思维与研究能力。

文献分类与检索 内容提要】索引的研究、编制与文献流通形式变化息息相关。以计算机为主体的新技术在文献流通领域广泛应用,对索引理论研究及编制形成冲击,同时也带来变革的要求。10年来我国索引编制研究的起伏波动,说明索引研究应顺应社会文献流通需要而变革的重要性。书目编制、数据库建设及文献标引、检索语言方面等研究的发展趋势,也说明新技术运用对于文献整理带来的新特点、新要求。索引理论研究和编制要适应新形势、新情况,使索引编制更好地为社会服务。 索引是利用文献的工具,与文献流通形式的变化息息相关。10年来在索引编制理论研究方面发生了波动,说明我们关于索引编制的理念正随着文献整理现代化进步而发生深刻地变化。以往文献以纸质载体为主,索引编制靠人工,编排技术百多年没有发生多大改变,理论研究相对稳定。自从计算机及其相关电子技术应用于文献领域并成为新流通载体后,索引编制手段及索引形式发生了巨大变化,对传统理念产生很大冲击,这是造成索引研究波动的根本原因。本文就10年(1993-2002)来索引研究的状况进行剖析,以求得一二看法,为索引研究深入发展筹谋。 1 索引理论研究低落,相关研究发展强劲 我国很早就有索引的编撰和理论研究。上世纪二三十年代,现代索引编制理论和方法传到我国,曾掀起索引编制和研究的高潮,成果辉煌。新中国建立后,安定的社会环境,先进的政治制度,为学术研究提供了良好氛围,索引的理论研究和编制才真正掀起高潮。虽然文化大革命影响了索引事业的发展,但拨乱反正后,索引研究与编制又蓬勃兴起。尤其是80年代末期中国索引学会成立,领导索引研究,组织索引开发,开展学术交流,使我国索引事业走向规范化道路。 20世纪90年代初,是我国学术界研究索引理论的高峰期,1996年以后研究数量相对减少。《全国报刊索引(哲社版)》报道的信息显示了这种趋势(见表1)。但这种滑动并不表明我国索引研究衰退,而只能说明传统理论研究在减少,这是索引研究走向成熟的转折。能说明问题的是与索引研究相关学科或索引应用理论研究走向强劲。 表1 索引编制理论研究情况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 38 44 36 25 20 31 29 0 1 2 226传统编制 37 42 32 25 20 29 28 0 1 2 216自动化编制 1 2 4 0 0 2 1 0 0 0 10 书目的编制研究 书目编制在我国历史悠久,从汉代刘向著《七略》麇集众书始,书目便成为人们查检文献的重要工具。其六分群书并以此编排的方法,虽然有些幼稚,但已开索引先河。书目对保存文献并提供文献利用的功能,在两千多年历史中影响巨大。书目功能虽然主要不是用于文献查检,可在漫长岁月中人们主要靠书目来检索文献,以至许多学者将索引理论在中国的不完善归咎于书目的影响。直到现在关于书目编制的研究一直不衰。论述书目编制和数据库的文献就非常之多(不包括目录学理论、各种目录研究、图书馆编目及目录组织等文章,见表2)。尤其是运用自动化手段编制书目的研究逐渐增强。 表2 书目编制理论及数据库研究状况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 25 17 32 10 27 51 49 36 56 51 374书目编制 11 6 11 2 5 16 4 9 12 12 88传统编制 11 5 10 2 4 8 4 6 8 6 64自动化编制 0 1 1 0 1 8 0 3 4 6 24数据库研究 3 5 10 6 17 49 41 18 32 27 208 书目数据库建设研究 数据库是计算机技术应用于文献存储后的文献形态,大多数数据库就是电子版的书目。其多种检索途径又使它成为一部多功能索引。对它的研究90年代初期较少,而末期达到高峰,至今不减(见表2)。 文献标引研究 文献标引是揭示文献的途径,书目和索引的编制都离不开它。书目标引在于揭示群书篇目,索引标引所揭示的包括文献提名在内的各种知识点。在标引技术上没有本质区别,对它的研究一直是常见的选题。10年来研究文章比较多(见表3,不包括图书馆分类、编目所涉及的标引问题)。计算机技术大规模运用书目和索引编制以来,讨论自动化标引技术的文章越来越多,说明我国文献处理技术的研究已跟上世界发展的趋势。 表3 文献标引研究情况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 28 39 34 26 46 64 48 28 50 39 402传统理论 22 36 29 21 42 49 36 16 33 29 313自动化标引 6 3 5 5 4 15 12 12 17 10 89 文献检索语言研究 检索语言是人与文献对话的媒介,没有这种语言就无法做到文献规范化处理,就无法与文献沟通。特别是计算机技术运用以后,检索语言成为人机对话的途径。检索语言是具有一定规范标准的人工语言。例如《中国图书馆图书分类法》、《汉语主题词表》、以及各种形式的“关键词表”、“著者号码表”等。如今人们又提出用自然语言标引和检索计算机整理的文献,研讨热烈,有许多文章颇有见地,代表了检索语言的方向。如何在网络环境下进行文献检索的探讨日益见多(见表4,数据不包括图书馆日常使用的分类法、主题法等)。 表4 文献检索语言研究状况(按《全国报刊索引》报道时间统计) 年 代 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 共计总 共 15 37 25 16 41 29 25 35 37 19 279传统理论 15 35 24 15 38 25 21 27 29 11 240自动化语言 0 2 1 1 3 4 4 8 8 8 39 相关学科研究的强劲势头,是索引研究和编制的必然结果,是索引研究实用化的反映,也是索引科学与各学科交叉和融合的结果。它告示我们对应用科学理论的探讨更应注重于实践。 2 索引研究发展曲线描述了电子技术应用文献流通领域的历程 10年中,关于索引编制、书目编制、书目数据库、文献标引、检索语言等研究,都经历了低→高→低的波动。驼峰从1995年开始至1999年,峰顶在1997-1998年。这正是以计算机为主体的现代电子技术在文献出版、存储、流通各环节普遍应用时期。计算机网络已成为人们实际使用的文献形式。其功能齐全、传播速度快、存储量大、收藏丰富、检索方便,准确率高,都是纸质文献所不及,有替代书本式文献之趋势。在人们心理(接受新生事物)、生理(适应并掌握操作技术)上产生了解、掌握、运用的欲望,因此关于新技术运用的研究探讨是必然现象。这种研究的热化,势必对传统理论形成冲击。但也要经历由浅入深、由一般介绍到深刻研究的进程。随着新技术的普及和运转稳定后,该方面研究就会减少,因而形成曲线。这个曲线记录着计算机及其网络技术在文献流通领域应用的历程。 计算机技术应用对传统索引理论研究的冲击 1994年研究索引理论的文章最多,随之逐渐减少(见表1)。与研究数据库建设、文献标引技术和检索语言的文章从1997年逐渐增多形成反差。形成这种反差的原因,就是学术界对计算机技术在文献流通领域普遍应用的反映与研究探讨。1994-1996年是这类研究的酝酿、写作、发表周期。传统理论逐渐减少合乎学术研究发展趋势,但“0”发展不正常,重视一种研究而忽视其他研究的倾向不可取。传统索引编制理论是一切新索引编制和索引形式的理论基础,对其研究不可轻视。 书目数据库研究的发展曲线(见图1),明显表明计算机及其网络在图书馆和其他文献传播行业中运用的过程 关于数据库研究的文章始见于80年代末90年代初,主要以介绍其功能作用为主。随着计算机在文献流通领域普及速度加快,文章数量开始增多,探讨数据库编制、检索以及制作技术等方面内容。1995年以后研究文章开始骤增,标志着计算机在以图书馆为主体的文献流通领域大规模应用。之后的三四年是计算机及其网络技术普及应用的高峰,至90年代末基本稳定,于是研究的文章相对减少。 附图 图1 文献标引、检索语言、书目数据库研究情况示意图 文献标引的研究与检索语言的研究相依共存,都是揭示文献的方式和手段 检索语言是人与文献载体(印刷体、电子形式等)沟通的语言,通过这种语言或代表这种语言的标识符号,把文献主体概念及其他有检索意义的特征表示出来,作为文献存储和检索的依据。没有检索语言,标引无法做到。不进行标引,检索语言便毫无用处。这是索引编制的重要途径。尤其是计算机技术应用于文献整理后,这两方面的研究尤为需要。从图1可以看出,研究的高峰恰恰也在计算机技术普遍应用时期,表明了学术界对文献标引及其检索语言编制的重视,同时也反映出这些学者与时俱进的学风和进取精神。计算机应用是索引理论研究史上最重大的事件,它不仅随着文献载体转变而变换其形态,而且关系到编制方法、操作过程等环节的改革与创新,更重要是索引编制的观念必须改变。这是索引编制史上一场重大的革命。 3 索引理论研究步伐不大但视野开阔 索引研究在众学科中是小字辈,成果相对较少。研究内容大都属于功能介绍、编制方法等探讨。随着科学研究深入发展,人们对文献需求广泛,索引理论研究便向着多元化、专深化发展。特别是新型文献载体的出现,开阔了索引理论研究的眼界。人们从多角度多方面探求揭示文献的途径,10年来总体研究步伐迈得不大,但研究视野比以前开阔了许多,这本身就是索引理论研究的进步。 总体趋势是传统理论研究在减少,但反映的是对新形势下索引研究的呼唤 索引理论研究在90年代还很稳定。表1中1993-1999年间研究文章数量起伏不大,而且较多。说明我国学术界中有一批学者在关心索引事业的发展。在这较好的氛围中,中国索引学会功不可没,组织学术研究,与国内外学界交流互通,做了许多工作。在90年代中期,中国索引学会编辑了《索引研究论从》丛书,包括《索引的昨天与明天》、《索引技术和索引标准》、《论索引和索引方法》、《报纸索引和新闻数据库》、《索引编制自动化》5个分册,共收论文114篇,聘请相关专家撰写了有关索引编制原理及自动化编制技术、文献标引及自动化标引技术、检索语言编制及计算机语言识别技术、书目数据库技术等方面的论文,论及问题之深,引用资料之多,学术见解之新,是索引理论研究多年未曾有过的,为中国索引理论发展起了导航作用。但近几年研究文章骤减的状况应该引起学术界注意,反思以往的研究是否适于新形势、新局面的需要,如何尽快改变传统观念,建立起新技术研究体系等,为网络环境下索引事业的发展奠定基础。 索引研究视野逐步扩大,适应了科学技术发展的大趋势 10年间报刊上共发表研究索引编制理论的文章203篇(这个数字是按原始文献发表时间统计),内容包括索引编制的一般理论、自动化编制、国外索引编制、各种类型索引研究、索引史研究、对著名索引学者和编制机构研究、索引专著研究、各种检索工具索引编制、古籍和现代著作索引编制等(见表5)。一般理论研究只占,其他专门研究占2/3还强。在64篇理论文章中谈功能作用类27篇,编制原理类26篇,论索引事业发展8篇,对中外索引编制理论进行比较研究的3篇。从各种角度来研究索引编制,反映出索引研究的生命力,能够适应科学技术进步而发展。 表5 1993-2002索引理论研究分类状况(按原始文献发表时间统计) 项 一般 自动 国外 索引 学者 索引 索引 检索 古籍 现代 总目 研究 化 索引 类型 机构 史 专著 工具 索引 著作 共数量 64 12 13 62 6 7 22 10 3 4 203 索引类型的研究数量较多,表明了索引学仍是一门实用科学 只要社会需要文献就有使用索引的要求。不论什么时候索引都是使用文献最便捷的途径。研究各种类型索引编制的文章62篇,几乎占1/3,论述了10多种索引的编制(见表6)。虽然平均文章不多,但反映出学术界给予的关注。这些索引功用不同,但都是人们所需要的。 表6 类型索引研究情况(按原始文献发表时间统计) 附图 计算机技术趋于稳定后,自动化方面的研究会减少,而研究索引类型、为学术著作编制索引会增多 新文献载体出现,文献利用形式发生变化,对这方面的研究必然要出现,但一旦普及并趋于稳定后,介绍或说明性文章就会减少,而逐渐转向深层次探讨,文章数量就要下落。研讨数据库文章逐渐减少就是例证。而在书目编制、文献标引、文献编排、检索语言等领域自动化研究逐渐增多则表明人们正在摆脱一般理论的研究,转向实用理论、专门编制方法的探讨。这也是计算机技术从应用到理论研究进展的过程。因此研究计算机应用于具体领域的文章会逐渐增多,逐步加深。 对索引史、索引研究与编制方面有贡献的学者或机构的研究逐渐减少,而对索引著作和检索工具索引编制研究的增多,反映出学术界更重视索引应用理论的研究,重视索引检索功能的探讨 虽然近3年这方面研究出现空白,但是暂时现象,是由于文献载体变换中出现的调整期。当计算机技术运行稳定后,由于机编速度快、抽词准确、编排规范等优点,节省大量编制成本和人工,势必会出现编撰索引的高潮。包括为古今中外各种学术研究而编制索引。索引成果不一定是印刷型,但功能一样。 只要文献功能没有消失,索引作用就不会消亡。从索引功利性能上讲,计算机在文献领域里广泛运用,为索引编制开辟了无限光明的前景,以往可望不可及的鸿篇巨著的索引编制,如今可能在俄倾之间,轻松愉快之中成就。文献使用步入了崭新的时代。 4 走出“理论”的困惑,建立大索引观,放眼于索引的实际应用 索引是“完备文献”的重要组成部分,“完备文献”应该是既有原始文献又兼有检索工具,使用起来非常方便。索引就是检索工具,依附于文献而存在。如今文献形态发生了巨大变化,索引研究也要洗心革面,使其适应新形势下人们对文献的需求。就索引研究的现状有几方面应引起我们重视。 应突破传统观念的束缚,树立创新思维 深刻研究当今人们利用文献的特点,研究计算机及其网络发展对文献传播的影响,网络环境下人们对文献使用的需求,以使索引编制适应人们未来利用文献的需要。索引理论研究既要适应文献形式变化,也应符合人们对所用文献的了解认知、心理适应和使用习惯。不能固守传统理论不放,理论与实用脱节,而失去指导实践的意义。建立创新思维,不能指望在短时间建立一套完备的新理论,应该树立新的思维方式方法,敢于创新,敢于超前,以社会需求为研究目的,充分发挥索引在揭示文献上的作用,为文献利用提供快车道。 冲破“太平研究”的藩篱,增强其理性探索 现在许多研究是以发表文章为第一需要,所以在理论探讨上,都愿说“套话”,打“贯腔”,生怕新东西叫不准,新提法不被编辑认同,因此众云亦云,以求太平。还有个倾向,不论什么样内容都把它写成“理论”型,带有“理论”味,把特征、规律、功能等大谈一番。这实不可取。理论研究就是为了解决实际问题,不要拘于一定的形式,内容深浅皆可,只要论述明白一个问题就是好文章。索引是一门实用科学,应注重编撰技术的研究与探讨。可在10年中关于书目、索引编排技术(不包括图书馆目录组织)的研究只有44篇(见表7),这个数量是讨论索引编制和书目编制理论314篇文章(见表1、2)的14%,占这次在《全国报刊索引》查阅1 247条信息的,表明对编制技术方面的忽视。重“理论”,轻技术,是理性不足的显现。反映出业界习惯于约定俗成的运作,不善于开发与创新。 表7 关于书目索引编排技术研究(按《全国报刊索引》报道时间统计) 年代 1999 2000 2001 2002 共计总共 4 2 5 5 3 6 2 6 2 9 44传统 3 2 3 4 2 3 0 4 1 2 24自动化 1 0 2 1 1 3 2 2 1 7 20 相当研究人员对先进技术了解不足,对索引未来发展认识模糊 表1中研究传统理念数量与研究自动化编制之比为216:10,不能不说明学术界对新技术反映生疏。许多选题和论述,都不谈计算机运用于文献整理后产生的影响,而谈那些已被许多人谈过的问题。这是因为对新技术运用不甚了解,自然就不会对未来发展有清醒认识。90年代初期计算机在我国应用较少,而西方先进国家已大规模使用,这时理论界就应有个介绍的高潮,可实际上这种文章很少。说明我国索引界对新技术应用反映不够,学术研究相对滞后。这种局面必须改变,不然的话我们索引研究与编制就会落伍,就会影响国家和民族科学文化事业的发展。 首先要深刻了解日新月异的新技术带来的挑战,需要我们不时地更新、探索、追求,才能跟上时代的步伐,才能为文献充分服务于社会保驾护航 要根据新形势下社会对文献的需要,开发出实用性强的索引产品,为社会服务。索引研究和编制要因时、因书、因人、因社会需求而宜,真能如此,社会怎不认同。 理论研究要与时俱进,与实践相结合,以社会实际需要为前提 对于原理的讨论是必须的,而专门编撰理论的研究更为重要。索引编制不顺应时代,脱离实际需求,就分文不值。要形成良好的研究氛围,建立需求→研究→新需求→新研究的机制,研究有针对性也就有了生命力。编制方法有了科学性,索引成果就会产生很大的社会效益。 树立大索引观,开阔研究领域,为振兴国家的科学、技术、文化及经济建设服务 一不能把眼光局限于印刷型文献,虽然电子型文献目前人们不常见,但它终会成为文献主流载体,所以要加强数据库检索方式方法研究的力度,使电子文献更科学的为人们服务。二不能只重视社会科学方面文献的索引编制,要把眼界扩展为流通于整个社会的文献,比如经济建设、工业生产、商业服务业等方面,凡是能通过整序而流通于社会的文献,或者说通过整序后有利于社会流通的文献,都应该纳入我们的视野。比如产业名录、商品名录等。三要注重与索引研究交叉学科的研究,这些学科间研究目的相近,技术相关,功能相连。诸如文献的分类、编目、标引、校仇、考证以及数据库制作技术等。虽然整理目的不同,但许多技术相近,可以相互利用,共同完成文献的揭示与整理。 中国索引学会应加强力量引导学术研究 除组织学术活动外,更应该在索引理论研究方向上起导向作用,介绍世界上先进的编制技术和索引研究动态,引进成果,翻译有影响的学术著作,加强学术交流,使社会各界了解索引的新发展。学会也应吸收工商界有关技术人员参加,使索引研究更加实用化,直接与工农业生产和国家的经济建设挂钩,更好地服务于国民经济建设。 总之,10年来索引研究有喜也有忧,忧中也有喜。喜,研究成果颇丰。忧,后几年传统研究滑坡。滑坡的原因是社会对新技术广泛应用的关注,人们要有个了解熟悉的过程。在这个过程中,人们会对传统技术进行重新审视、评价、借鉴并与新技术融会。后几年传统研究减少就是新旧技术融会调整的时期。今后定会出现个新理论蓬勃发展期,因此忧中又有喜。让我们做好理论准备,迎接新索引编制高潮的到来。

论信息检索的重要性论文

高校文献信息检索的必要性与有效方法论文

在学习、工作中,大家总免不了要接触或使用论文吧,论文可以推广经验,交流认识。如何写一篇有思想、有文采的论文呢?以下是我收集整理的高校文献信息检索的必要性与有效方法论文,希望能够帮助到大家。

摘要: 随着互联网信息、知识的不断更新,文献信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段,成为继续学习的重要工具。通过探讨文献信息检索的科学定义及高校信息检索的必要性,进而从文献信息检索流程角度提出高校文献信息检索的途径和策略。

关键词: 文献;信息检索;策略;

文献信息是巨大的社会财富,它伴随着社会的广泛进步而迅速更新和积累,在带给我们越来越便捷的同时,也必然给阅读、查找和充分利用信息带来一定困难。为解决庞大的科学文献和个人特定需求之间的矛盾,便产生了文献信息检索,文献信息的检索和利用已经发展成为一门专门的学科,高校信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段。

一、文献信息检索定义

“信息检索(Information Retrieval)”一词最早出现在20世纪50年代,有广义和狭义之分。

广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。也就是说,信息检索包括两个环节和内容:“存”和“取”。狭义的信息检索则专指信息检索过程中的第二个环节,即从信息集合中找出所需要信息的过程,也就是我们常说的信息检索、信息查找或信息搜索等术语。

信息检索按照检索对象的不同又可以分为文献检索、数据检索、事实检索。本文侧重于文献检索,即通过检索文献来获取所需要的信息、知识、情报[1]。

二、高校文献信息检索的必要性

(一)信息的多元化需要师生具备一定的信息评价和筛选能力

在当今互联网、信息化社会,人们无时无刻不在利用信息资源进行生产、生活和创新创造。但面对浩瀚的信息海洋,信息流和信息量越来越多、越来越大,人们进行检索和利用的困难也就越来越大。随着4G网络的覆盖和智能手机的普及,人们轻而易举就能接触各种各样的信息,各类门户网站、微博、微信、QQ等推送信息的常态化,一方面丰富了我们的日常生活,拓宽了我们的视野;另一方面也给我们对于浩瀚无垠的信息的过滤、评价、筛选和运用带来极大的挑战[2]。在纷繁复杂的信息洪流中,哪些是对我们有益的,哪些会给我们带来负面的影响,都要求我们具备一定的信息鉴别和评价的能力,需要我们具备较高的信息素养和信息处理能力。文献信息检索能力成为高校师生应掌握的基本学习技能之一,是继续学习的重要手段,在教学、学习、科研和生活方面发挥巨大作用。

(二)学校对学生的信息素养教育重视程度不够

早在20世纪70年代,联合国教科文组织就对“文盲”下了新的定义:在当今科学技术飞速发展的时代,文盲已不是不识字的人,而是不知道如何获取知识的人。我国国家教委要求,全国各大院校要全面普及开设文献信息检索课,这对大学生普及文献检索知识、提高信息素养、增强信息检索的兴趣、提高信息检索能力都具有十分重要的现实意义[3]。然而现状却是,全国各大高校开设的信息检索课程大部分是以选修课的形式存在,学生自愿选择,主要目的也就是为了修够学分,以这样的方式开展信息教育并不能取得理想的效果,这种重专业、轻信息素养的教育还普遍客观存在。

(三)信息检索助力高校科学研究

科学研究是高等学校重要职能之一,大学对整个社会的科技进步与发展起着重要引领与推动作用。现代科学技术的迅猛发展,各个学科的交叉和渗透一方面促使了新的学科不断涌现,源源不断地出现大量新的知识;另一方面,知识的老化和被淘汰的速度也会越来越快。作为高校科研人员,必须具备一定的信息素养,即敏锐的信息意识、发现高质量信息的能力、信息的选择和评价的能力以及如何正确地引用文献、尊重他人知识产权的能力。作为科学研究者,必须时时了解学科最前沿的动态,掌握最新的知识,这样才能研究出有价值的科研成果,而文献信息检索能力就是科学研究人员必不可少的要素之一。为了减少课题的重复研究,提高研究的成功率,科研人员在研究一项课题之前,必须要进行的相关的资料收集和文献检索。在确定选题之后同样要科学合理运用文献信息检索方法开展文献信息甄别筛选和运用,进行进一步研究,保障研究成果的承续性,进而推动科学研究向纵深发展。

三、高校文献信息检索的策略

(一)分析检索问题

在解决一个问题之前,我们首先要做的就是分析问题,对问题的分析是解决问题的关键所在。分析一个问题我们可以从如下几个方面考虑:首先,提问者是谁。同样一个问题,教师跟学生对内容的层次要求就不同;一个专业性的问题,高校专业教师和学生对问题的要求也会不同。其次,问题的性质。不同的问题对应不同的要求,如果我们对一个概念需要界定,或者需要查找与自己所撰写文章密切相关的文献,这时对概念的界定和对文献的检索就需要“准”。如果我们要做一个论文的选题的确定或者做一个项目的申报、企业新产品的开发,在做这些工作之前,我们需要对前人的研究成果做一个全面的普查,这类型的问题的要求就是“全”。再如,我们要了解某个领域的趋势前沿和最新进展,对这类问题的要求就是查找的资料必须要有新颖性,即“新”。再有,对一些技术性强的问题,如专利的申报、企业新产品的开发、某一项技术的引进等,对这类问题的检索要求是“细”。再次,学科和主题。如果只是单一的某一个学科或主题,那么只需要找到收录这个学科资源的数据库进行检索就可以。但是有很多跨学科领域研究的问题如果只是在一个数据库查找,就会造成资源的不全面。第四,资源类型。我们熟知的资源类型有学位论文、会议论文、期刊论文、图书、专利、标准等等,不同的资源类型收录的特点也不同,如内容的深度、系统性、时效性都不同,研究课题不同,对资源类型的要求也不同。第五,资源的范围。查找资料的时候往往对范围进行限定,范围包括时间范围、地域范围、语种范围等。

(二)选择合适的检索工具

分析检索问题之后,我们需要选择合适的检索工具。常用的检索工具有搜索引擎和商业数据库。搜索引擎它具有检索过程不收费、面向所有的终端用户、对用户检索水平要求较低等特点,常用的搜索引擎有谷歌、百度、搜狗、必应等。商业性数据库的特点有:第一,检索需要收费或者授权,高等学校一般都与相关商业数据库合作,校园网环境下一些商业数据库是可以免费使用的。第二,它们的功能和收录资源的范围有明确的定位,如只能检索专利信息的德温特专利创新索引、只能检索学位论文的ProQuest Digital Dissertations数据库、只能检索会议论文的CPCI、只收录世界上顶尖期刊论文的Web Of Sicence的三大引文索引数据库等。第三,这些数据库都有自己的一套检索技术,因此对用户的检索水平要求较高。除了上述的专业性数据库之外,还有一些因经常使用被我们熟知的综合性数据库,如中国知网、维普、万方等。

除了搜索引擎和商业数据库之外,还有一些其他可以免费获取资源的途径,如主题指南(导航)、数字图书馆、政府的网站(数据库)、电子预印本、博客、微博、机构知识库等途径。因此,我们只有熟知各个不同的检索工具以及它们的特色才能检索到不同的文献类型。 高校师生要立足本职工作和学习需要选取适合的文献信息检索工具,助力科学研究、日常教学和学习生活。

(三)抽取恰当的关键词

选取科学适当的检索工具后,下一步工作就是确定检索关键词。

首先,要确定研究问题有哪些核心关键词(Core Keywords),抽取核心关键词可以依据汉语主题词表,如查询表述具体事物名称的名词术语、事物的状态或现象的名词术语、科学分类的名词术语、研究方法、技术方法的名词术语、工艺方法、加工技术的名词术语、化学元素、化合物、金属材料与合金的名词术语、国家名称、地名、组织机构名称以及文献类型、文献载体的名词术语等。其次,为了保证查全率和查准率,应当注意这些核心关键词有无其他的表述方式,如同义词、近义词、与之相关的词、有无缩写形式或者全称形式、有无相关的组织机构、英文的单数复数形式等,如果有,分别检索。第三,避免用太泛的关键词,应选用专指性很强的关键词。例如,我们要检索计算机软件有关的视频资料,如果我们只输入“计算机操作视频”这样类似的检索式,当然也可以找到一些检索结果,但缺乏针对性。我们不妨直接明确输出我们要学习的.软件的名称,如“Powerpoint 视频”,这样检索出的结果的相关性就要高很多。第四,学会利用专业术语。不同的学科,他们的专业术语表述不同,如信息检索、克隆人、电子图书等都属于专业术语,对这些专业术语进行检索的时候,尽可能加上双引号进行精确检索,可以提高检索结果的相关度和准确度。

(四)构造检索式

确定几组关键词后,下一步工作就是要构造检索式。即要用一定的运算符号将这些关键词连接起来,形成具有一定意义的表达式,也叫检索提问表达式。构造检索式具有一定的专业性,这就需要依托信息检索课和上机课来实现,重点指导学生如何正确构造检索式。构造检索式,可以从以下几个方面考虑:首先要明确检索词之间的逻辑关系,用布尔逻辑运算符AND、OR、NOT将它们连接起来;然后需要考虑检索词之间的位置是否需要进行限定,如果需要则根据不同的检索工具使用一定的检索手段对检索词的位置进行限定;对于一些专有名词,是否需要作精确检索,如果需要则给检索词加上双引号;为了使检索结果更加精准,我们还需要把检索限制在某一个范围当中,比如限制在某个字段,语种、出版年、摘要、题名等不同的字段作一个限定,还有其他的各种限定,如文献类型、机构的域名的类型等等。当然,不同的检索工具可能有自己特有的语法用法,我们应当学会灵活应用和变通不同的检索方法和技巧。

(五)筛选检索结果

通过选取关键词、构造检索式进行检索后,会得到众多检索结果,但在众多的检索结果当中,并不是每一条都是我们所需要的,所以我们要对检索结果作一些筛选。首先,依据结果的相关度,我们得到的检索结果是否与我们要检索内容的主题相关,是否与我们所需要的信息内容的层次、深浅度相匹配;其次,要看作者,即要看作者的权威性和影响力,这直接影响到我们检索到的文献信息的质量,对于一些没有显示作者的网站来说就缺乏一定的严谨性;再次,要看检索结果的时效性,往往最新的观点、新的理论、新的解决方案都来源于最新发表的文献信息。另外,要合理判断检索信息的公正性、准确性,避免使用错误的、缺乏科学论证的文献资料,等等。

(六)调整检索策略

经过前面的检索步骤得出的检索结果当中,如果还是没有理想的检索结果,就需要调整检索策略。首先,当检索结果太少的时候,则需要扩大检索范围。比如看检索词是否有近义词、同义词、上位词,将这些检索词用布尔逻辑语OR来连接,可以很好的扩大检索范围。再如,利用宽容的检索方法检索,像英文单词中经常会有一部分相同的部分,那些可变换的部分就可以用截词检索代替。还有英文名词的单复数形式,如果我们要找“女性”的相关资料,只输入“woman”检索就会漏检很多,还应该对它的复数形式“women”也进行检索。还比如英文的缩写形式,比如我们要找“慕课”相关的文献,如果我们只是输入“慕课”就可能会漏掉相关重要信息,我们还应该用它的缩写形式去检索,输入“MOOC”或者它的英文全称“Massive Open Online Courses”,这样分别去检索才不会遗漏掉重要文献资料。如果是因为我们的限制太多导致检索结果太少,那么可以考虑去掉一两个限制。因为每一个检索工具收录的范围和内容有一定的侧重点和有限性,所以我们也可以考虑更换不同的检索工具进行检索。其次,当检索结果太多的时候,我们也应该采取一定的措施缩小检索范围。例如用布尔逻辑运算符AND和NOT连接检索词,用AND多加几个检索词进行限定,或者用NOT排除一些限定;使用检索词的下位词进行检索;对一些专有名称,专业术语加上引号进行精确检索也可以缩小检索范围,从而实现更精确地检索;对检索词加上一定的限制,如对它的时间、机构、网站、文献格式等进行一个限制;除此之外,我们还可以利用检索工具本身所具备的二次检索功能来筛选检索结果,从而缩小检索结果。

(七)求助专业人士

如果通过上述途径仍然不能取得理想的文献信息资料,我们可以通过一些掌握现代技术的、具有丰富科学研究经验的专业人士来获取我们想要的文献信息。例如,有很多图书馆的网站主页上都会有在线咨询的功能,我们可以通过在线咨询的服务功能从图书馆员那里获取文献信息资料。很多图书馆都开通了馆际互借的功能,通过馆际互借,我们可以共享很多成员馆的文献信息资源,而这些庞大且宝贵的文献信息资源经常会被老师们和学生们忽略掉。再如,我们还可以求助一些在线的问题回答类的网站,像百度知道、知乎等,还有国外比较权威的网站像AIIExperts等,通过询问这些网站上的一些权威专家,也可以为我们的学习和研究提供宝贵的意见。

总之,互联网是一个非常开放的空间,如果善于应用,我们不仅可以贡献自己的经验和智慧来为他人服务,我们也可以共享他人的智慧来为我们自己的研究和学习服务。

四、结语

信息检索的最终目的是通过解决各种各样的问题,进而提高学习和科学研究能力。正如美国文献家赫伯特所言:“知识的一半,是知道到哪里去寻找它。明日的文盲,不是不能阅读的人,而是缺乏检索能力的人。”互联网时代文献信息检索能力比文献信息本身更重要。来自美国的非盈利性机构“今日信息科学网站”的一份报告“Information Literacy A Skill for Life”也在呼吁互联网时代新的技能,即媒体与信息素养。由此看来,信息素养的培养不光适用于高校信息素养教育,同时也具有世界性的重要意义。文献信息知识伴随着社会的发展而迅速更新和积累,高校应强化对信息检索的指导,提高信息检索能力,助力高校教学和科学研究。

五、参考文献

[1]陈振标.文献信息检索、分析与应用[M].北京:海洋出版社,2016:19.

[2]陆和建,姜丰伟.新信息环境下高校信息检索课教学方式的优化策略[J].大学图书馆学报,2015(2):96—99,112.

[3]万爱群,杨红.浅谈开设《信息检索与利用》课程的必要性[J].广西质量监督导报,2007(6):105—118.

我为大家带来了“信息检索的重要性”,喜欢的朋友可以关注我们。

关于信息检索,我认为就是搜索、查找、并且对查找到的信息分析鉴别、处理 然后挑拣出对自己有用的信息资料。这就需要我们每个人都必须要培养信息获取和利用的能力。

信息是一种资源,在当代社会信息化的进程中,信息对我们生活的影响日显重要,人们将信息资源,能量资源,物质资源统称为当代社会的三大资源。开发利用信息资源需要有科学的方法,完整的过程包括信息检索、分析与鉴别、处理以及信息发布等环节。

在“信息爆炸”的现今,如果按现在的信息量衡量,我们一生闭门苦读也只能了解有限的一部分。所以,我们必须要有获取和利用信息的能力,这是非常重要的,这是大学生能力结构的需要,并且,要掌握一套较完整的开发、利用信息资源的方法。学习好对信息获取和利用能力的培养,可以提高我们大学生的各种能力,比如,很实用的适应、学习能力。然后在实用的基础上,培养应用能力,比如实践、管理、表达、分析、观察等等。在这个基础上,在能力结构的最高层,就是培养我们的研究创新能力。在这些能力中,在独立作用的同时又互相作用、互相制约、互相促进。从而组成有机联系的能力结构。有了这些能力结构的纲领,我们就要根据这些步骤,来完成对信息检索课与信息能力的培养。

有了这些明确的框架结构,我们就很有目标性的学习。这可以培养我们的实用、应用甚至研究能力、。这些能力在我们今后的生活,工作中至关重要,不但是我们的一门课程,还是我们人生远航的帆船。

在信息爆炸式增长的年代,如果我们所学专业知识只是来自课本或课堂笔记,那么我们的知识将永远不会超过我们所用的课本和老师教案的水平。我们要想成长为参天大树, 必须要在前人的基础上,争取创新,提高自身获取信息的能力,集思广益,获取百家之精要,然后对其做处理,就比如说对一些文献,我们不知道哪些对我们现在有用,但我们利用一些高科技工具,可以对信息、知识、情报和文献做处理,选出我们需要并且有实用的需求。对一些资料价值的衡量,必须要通过这门课程来学习,并且熟练的掌握才能把如海水般的文字、音像、图画、符号等等大量的信息,多化少,粗化精,精益求精,选出我们最需要信息的核心, 这都少不了我们对这门检索课的学习, 而且必须掌握。

现今是多元化信息爆炸年代,对于分析现有信息是一门必修课, 不但是在课程,在人生也是一样,我们要分析做一件事的好与坏,价值是多少,都需要我们查阅大量的资料,对于各个方面都要做很细心的分析,考虑,如果没掌握这门检索课程,对于我们以后人生的生活也会有很大的影响。为了以后的路能够更加平坦,少一些曲折,崎岖,尽量少走弯路,必须对社会上各个方面的,不论是经济,政治,或者是实事,生活方面都有所了解认识, 搜索必不可少的核心信息,就可以省时省力。

兵法都将,天时地利人和, 我们学会了信息检索,学会了分析各个方面的信息,就掌握了天时、地利,对于人和,这就需要自身的修养,仍然需要借鉴古人那博大精深的文化内涵。由此可见,信息检索不但对于学习,生活有必不可少的作用,还对我们修身养性也有不可缺的重要性。

学位论文信息检索的重要性

(一)避免重复研究或走弯路科学技术的发展具有连续性和继承性,闭门造车只会重复别人的劳动或者走弯路。研究人员在选题开始就必须进行信息检索,了解别人在该项目上已经做了哪些工作,哪些工作目前正在做,谁在做,进展情况如何等。这样,用户就可以在他人研究的基础上进行再创造,从而避免重复研究,少走或不走弯路。(二)节省学习者的时间科学技术的迅猛发展加速了信息的增长,加重了信息用户搜集信息的负担。许多学者在承接某个课题之后,也意识到应该查找资料,但是他们以为整天泡在图书馆“普查”一次信息就是信息检索,结果浪费了许多时间,而有价值的信息没有查到几篇,查全率非常低。信息检索是研究工作的基础和必要环节,成功的信息检索无疑会节省大量时间,使其能用更多的时间和精力进行科学研究。(三)是获取新知识的捷径大学生在校期间,已经掌握了一定的基础知识和专业知识。但是,“授之以鱼”只能让其享用一时。如果掌握了信息检索的方法便可以无师自通,找到一条吸收和利用大量新知识的捷径,把大家引导到更广阔的知识领域中去,对未知世界进行探索。是谓“教人以渔”,才能终身受用无穷。

我为大家带来了“信息检索的重要性”,喜欢的朋友可以关注我们。

关于信息检索,我认为就是搜索、查找、并且对查找到的信息分析鉴别、处理 然后挑拣出对自己有用的信息资料。这就需要我们每个人都必须要培养信息获取和利用的能力。

信息是一种资源,在当代社会信息化的进程中,信息对我们生活的影响日显重要,人们将信息资源,能量资源,物质资源统称为当代社会的三大资源。开发利用信息资源需要有科学的方法,完整的过程包括信息检索、分析与鉴别、处理以及信息发布等环节。

在“信息爆炸”的现今,如果按现在的信息量衡量,我们一生闭门苦读也只能了解有限的一部分。所以,我们必须要有获取和利用信息的能力,这是非常重要的,这是大学生能力结构的需要,并且,要掌握一套较完整的开发、利用信息资源的方法。学习好对信息获取和利用能力的培养,可以提高我们大学生的各种能力,比如,很实用的适应、学习能力。然后在实用的基础上,培养应用能力,比如实践、管理、表达、分析、观察等等。在这个基础上,在能力结构的最高层,就是培养我们的研究创新能力。在这些能力中,在独立作用的同时又互相作用、互相制约、互相促进。从而组成有机联系的能力结构。有了这些能力结构的纲领,我们就要根据这些步骤,来完成对信息检索课与信息能力的培养。

有了这些明确的框架结构,我们就很有目标性的学习。这可以培养我们的实用、应用甚至研究能力、。这些能力在我们今后的生活,工作中至关重要,不但是我们的一门课程,还是我们人生远航的帆船。

在信息爆炸式增长的年代,如果我们所学专业知识只是来自课本或课堂笔记,那么我们的知识将永远不会超过我们所用的课本和老师教案的水平。我们要想成长为参天大树, 必须要在前人的基础上,争取创新,提高自身获取信息的能力,集思广益,获取百家之精要,然后对其做处理,就比如说对一些文献,我们不知道哪些对我们现在有用,但我们利用一些高科技工具,可以对信息、知识、情报和文献做处理,选出我们需要并且有实用的需求。对一些资料价值的衡量,必须要通过这门课程来学习,并且熟练的掌握才能把如海水般的文字、音像、图画、符号等等大量的信息,多化少,粗化精,精益求精,选出我们最需要信息的核心, 这都少不了我们对这门检索课的学习, 而且必须掌握。

现今是多元化信息爆炸年代,对于分析现有信息是一门必修课, 不但是在课程,在人生也是一样,我们要分析做一件事的好与坏,价值是多少,都需要我们查阅大量的资料,对于各个方面都要做很细心的分析,考虑,如果没掌握这门检索课程,对于我们以后人生的生活也会有很大的影响。为了以后的路能够更加平坦,少一些曲折,崎岖,尽量少走弯路,必须对社会上各个方面的,不论是经济,政治,或者是实事,生活方面都有所了解认识, 搜索必不可少的核心信息,就可以省时省力。

兵法都将,天时地利人和, 我们学会了信息检索,学会了分析各个方面的信息,就掌握了天时、地利,对于人和,这就需要自身的修养,仍然需要借鉴古人那博大精深的文化内涵。由此可见,信息检索不但对于学习,生活有必不可少的作用,还对我们修身养性也有不可缺的重要性。

论信息检索技术的重要性论文

我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之!2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁’时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[’“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔’3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词……………………………………太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。

我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。

现代信息检索论文: 现代信息检索方法的探讨 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。 一、布尔检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。 下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。 二、信息检索 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。 信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索 知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。 知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。

  • 索引序列
  • 文献检索重要性的论文
  • 学习文献检索的重要性论文
  • 论信息检索的重要性论文
  • 学位论文信息检索的重要性
  • 论信息检索技术的重要性论文
  • 返回顶部