图书信息检索技术的论文

发布时间：2023-12-05 13:29:25

图书信息检索技术的论文

现代信息检索方法的探讨要想充分利用这些浩如烟海的文献信息资源，必须借助各种各样的检索工具。同时，因特网信息资源的骤增及其异构性、动态性，不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理，从本质上变革信息资源检索方法，已成为现代化信息知识检索理论研究的热点。实践证明，将人工智能技术与信息技术结合，发挥人工智能的作用，是一条成功的经验。下面就知识检索与信息检索的关联和发展，作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配，是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种，分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式，计算机将根据提问式与系统中的记录进行匹配，当两者相符时则命中，并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”，表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”，表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”，表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的，对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求，除要掌握检索课题的相关因素外，还应在布尔算符对检索结果的影响方面引起注意。另外，对同一个布尔逻辑提问式来说，不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索。它是基于信息组织形式，如字符串、结构化数据库，应用信息处理方法，如排序数据查找、字符匹配，实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术，改进了基本检索功能，但缺点是对精确的提问不能给出精确的回答。从历史上看，信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前，信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容；信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众，他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是，模拟扩展人类关于知识处理与利用的智能行为和认识思维方法，是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如：抽象思维方法，形象思维方法。知识检索具有明显的优势：①实现信息服务向知识服务的转化，向用户提供潜在内容知识，以及分析预测后的超前性领域成果或知识。②提供主动服务方式，自动优化用户需求，主动提供个性化检索。③面向用户，依据用户的需求及其变化，能灵活选择理想的检索策略和技术，并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术，全面提高检索效率。知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术，基于知识和知识组织，融合知识处理和多媒体信息处理等多种方法与技术，充分表达和优化用户需求，能高效存取所有媒体类型的知识源，并能准确精选用户需要的结果。

高校文献信息检索的必要性与有效方法论文

在学习、工作中，大家总免不了要接触或使用论文吧，论文可以推广经验，交流认识。如何写一篇有思想、有文采的论文呢？以下是我收集整理的高校文献信息检索的必要性与有效方法论文，希望能够帮助到大家。

摘要：随着互联网信息、知识的不断更新，文献信息检索能力已经成为高校师生信息素养的重要内容，也是提高大学生学习能力和教师科研的重要手段，成为继续学习的重要工具。通过探讨文献信息检索的科学定义及高校信息检索的必要性，进而从文献信息检索流程角度提出高校文献信息检索的途径和策略。

关键词：文献；信息检索；策略；

文献信息是巨大的社会财富，它伴随着社会的广泛进步而迅速更新和积累，在带给我们越来越便捷的同时，也必然给阅读、查找和充分利用信息带来一定困难。为解决庞大的科学文献和个人特定需求之间的矛盾，便产生了文献信息检索，文献信息的检索和利用已经发展成为一门专门的学科，高校信息检索能力已经成为高校师生信息素养的重要内容，也是提高大学生学习能力和教师科研的重要手段。

一、文献信息检索定义

“信息检索（Information Retrieval）”一词最早出现在20世纪50年代，有广义和狭义之分。

广义的信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的需要找出有关信息的过程和技术。也就是说，信息检索包括两个环节和内容：“存”和“取”。狭义的信息检索则专指信息检索过程中的第二个环节，即从信息集合中找出所需要信息的过程，也就是我们常说的信息检索、信息查找或信息搜索等术语。

信息检索按照检索对象的不同又可以分为文献检索、数据检索、事实检索。本文侧重于文献检索，即通过检索文献来获取所需要的信息、知识、情报[1]。

二、高校文献信息检索的必要性

（一）信息的多元化需要师生具备一定的信息评价和筛选能力

在当今互联网、信息化社会，人们无时无刻不在利用信息资源进行生产、生活和创新创造。但面对浩瀚的信息海洋，信息流和信息量越来越多、越来越大，人们进行检索和利用的困难也就越来越大。随着4G网络的覆盖和智能手机的普及，人们轻而易举就能接触各种各样的信息，各类门户网站、微博、微信、QQ等推送信息的常态化，一方面丰富了我们的日常生活，拓宽了我们的视野；另一方面也给我们对于浩瀚无垠的信息的过滤、评价、筛选和运用带来极大的挑战[2]。在纷繁复杂的信息洪流中，哪些是对我们有益的，哪些会给我们带来负面的影响，都要求我们具备一定的信息鉴别和评价的能力，需要我们具备较高的信息素养和信息处理能力。文献信息检索能力成为高校师生应掌握的基本学习技能之一，是继续学习的重要手段，在教学、学习、科研和生活方面发挥巨大作用。

（二）学校对学生的信息素养教育重视程度不够

早在20世纪70年代，联合国教科文组织就对“文盲”下了新的定义：在当今科学技术飞速发展的时代，文盲已不是不识字的人，而是不知道如何获取知识的人。我国国家教委要求，全国各大院校要全面普及开设文献信息检索课，这对大学生普及文献检索知识、提高信息素养、增强信息检索的兴趣、提高信息检索能力都具有十分重要的现实意义[3]。然而现状却是，全国各大高校开设的信息检索课程大部分是以选修课的形式存在，学生自愿选择，主要目的也就是为了修够学分，以这样的方式开展信息教育并不能取得理想的效果，这种重专业、轻信息素养的教育还普遍客观存在。

（三）信息检索助力高校科学研究

科学研究是高等学校重要职能之一，大学对整个社会的科技进步与发展起着重要引领与推动作用。现代科学技术的迅猛发展，各个学科的交叉和渗透一方面促使了新的学科不断涌现，源源不断地出现大量新的知识；另一方面，知识的老化和被淘汰的速度也会越来越快。作为高校科研人员，必须具备一定的信息素养，即敏锐的信息意识、发现高质量信息的能力、信息的选择和评价的能力以及如何正确地引用文献、尊重他人知识产权的能力。作为科学研究者，必须时时了解学科最前沿的动态，掌握最新的知识，这样才能研究出有价值的科研成果，而文献信息检索能力就是科学研究人员必不可少的要素之一。为了减少课题的重复研究，提高研究的成功率，科研人员在研究一项课题之前，必须要进行的相关的资料收集和文献检索。在确定选题之后同样要科学合理运用文献信息检索方法开展文献信息甄别筛选和运用，进行进一步研究，保障研究成果的承续性，进而推动科学研究向纵深发展。

三、高校文献信息检索的策略

（一）分析检索问题

在解决一个问题之前，我们首先要做的就是分析问题，对问题的分析是解决问题的关键所在。分析一个问题我们可以从如下几个方面考虑：首先，提问者是谁。同样一个问题，教师跟学生对内容的层次要求就不同；一个专业性的问题，高校专业教师和学生对问题的要求也会不同。其次，问题的性质。不同的问题对应不同的要求，如果我们对一个概念需要界定，或者需要查找与自己所撰写文章密切相关的文献，这时对概念的界定和对文献的检索就需要“准”。如果我们要做一个论文的选题的确定或者做一个项目的申报、企业新产品的开发，在做这些工作之前，我们需要对前人的研究成果做一个全面的普查，这类型的问题的要求就是“全”。再如，我们要了解某个领域的趋势前沿和最新进展，对这类问题的要求就是查找的资料必须要有新颖性，即“新”。再有，对一些技术性强的问题，如专利的申报、企业新产品的开发、某一项技术的引进等，对这类问题的检索要求是“细”。再次，学科和主题。如果只是单一的某一个学科或主题，那么只需要找到收录这个学科资源的数据库进行检索就可以。但是有很多跨学科领域研究的问题如果只是在一个数据库查找，就会造成资源的不全面。第四，资源类型。我们熟知的资源类型有学位论文、会议论文、期刊论文、图书、专利、标准等等，不同的资源类型收录的特点也不同，如内容的深度、系统性、时效性都不同，研究课题不同，对资源类型的要求也不同。第五，资源的范围。查找资料的时候往往对范围进行限定，范围包括时间范围、地域范围、语种范围等。

（二）选择合适的检索工具

分析检索问题之后，我们需要选择合适的检索工具。常用的检索工具有搜索引擎和商业数据库。搜索引擎它具有检索过程不收费、面向所有的终端用户、对用户检索水平要求较低等特点，常用的搜索引擎有谷歌、百度、搜狗、必应等。商业性数据库的特点有：第一，检索需要收费或者授权，高等学校一般都与相关商业数据库合作，校园网环境下一些商业数据库是可以免费使用的。第二，它们的功能和收录资源的范围有明确的定位，如只能检索专利信息的德温特专利创新索引、只能检索学位论文的ProQuest Digital Dissertations数据库、只能检索会议论文的CPCI、只收录世界上顶尖期刊论文的Web Of Sicence的三大引文索引数据库等。第三，这些数据库都有自己的一套检索技术，因此对用户的检索水平要求较高。除了上述的专业性数据库之外，还有一些因经常使用被我们熟知的综合性数据库，如中国知网、维普、万方等。

除了搜索引擎和商业数据库之外，还有一些其他可以免费获取资源的途径，如主题指南（导航）、数字图书馆、政府的网站（数据库）、电子预印本、博客、微博、机构知识库等途径。因此，我们只有熟知各个不同的检索工具以及它们的特色才能检索到不同的文献类型。高校师生要立足本职工作和学习需要选取适合的文献信息检索工具，助力科学研究、日常教学和学习生活。

（三）抽取恰当的关键词

选取科学适当的检索工具后，下一步工作就是确定检索关键词。

首先，要确定研究问题有哪些核心关键词（Core Keywords），抽取核心关键词可以依据汉语主题词表，如查询表述具体事物名称的名词术语、事物的状态或现象的名词术语、科学分类的名词术语、研究方法、技术方法的名词术语、工艺方法、加工技术的名词术语、化学元素、化合物、金属材料与合金的名词术语、国家名称、地名、组织机构名称以及文献类型、文献载体的名词术语等。其次，为了保证查全率和查准率，应当注意这些核心关键词有无其他的表述方式，如同义词、近义词、与之相关的词、有无缩写形式或者全称形式、有无相关的组织机构、英文的单数复数形式等，如果有，分别检索。第三，避免用太泛的关键词，应选用专指性很强的关键词。例如，我们要检索计算机软件有关的视频资料，如果我们只输入“计算机操作视频”这样类似的检索式，当然也可以找到一些检索结果，但缺乏针对性。我们不妨直接明确输出我们要学习的.软件的名称，如“Powerpoint 视频”，这样检索出的结果的相关性就要高很多。第四，学会利用专业术语。不同的学科，他们的专业术语表述不同，如信息检索、克隆人、电子图书等都属于专业术语，对这些专业术语进行检索的时候，尽可能加上双引号进行精确检索，可以提高检索结果的相关度和准确度。

（四）构造检索式

确定几组关键词后，下一步工作就是要构造检索式。即要用一定的运算符号将这些关键词连接起来，形成具有一定意义的表达式，也叫检索提问表达式。构造检索式具有一定的专业性，这就需要依托信息检索课和上机课来实现，重点指导学生如何正确构造检索式。构造检索式，可以从以下几个方面考虑：首先要明确检索词之间的逻辑关系，用布尔逻辑运算符AND、OR、NOT将它们连接起来；然后需要考虑检索词之间的位置是否需要进行限定，如果需要则根据不同的检索工具使用一定的检索手段对检索词的位置进行限定；对于一些专有名词，是否需要作精确检索，如果需要则给检索词加上双引号；为了使检索结果更加精准，我们还需要把检索限制在某一个范围当中，比如限制在某个字段，语种、出版年、摘要、题名等不同的字段作一个限定，还有其他的各种限定，如文献类型、机构的域名的类型等等。当然，不同的检索工具可能有自己特有的语法用法，我们应当学会灵活应用和变通不同的检索方法和技巧。

（五）筛选检索结果

通过选取关键词、构造检索式进行检索后，会得到众多检索结果，但在众多的检索结果当中，并不是每一条都是我们所需要的，所以我们要对检索结果作一些筛选。首先，依据结果的相关度，我们得到的检索结果是否与我们要检索内容的主题相关，是否与我们所需要的信息内容的层次、深浅度相匹配；其次，要看作者，即要看作者的权威性和影响力，这直接影响到我们检索到的文献信息的质量，对于一些没有显示作者的网站来说就缺乏一定的严谨性；再次，要看检索结果的时效性，往往最新的观点、新的理论、新的解决方案都来源于最新发表的文献信息。另外，要合理判断检索信息的公正性、准确性，避免使用错误的、缺乏科学论证的文献资料，等等。

（六）调整检索策略

经过前面的检索步骤得出的检索结果当中，如果还是没有理想的检索结果，就需要调整检索策略。首先，当检索结果太少的时候，则需要扩大检索范围。比如看检索词是否有近义词、同义词、上位词，将这些检索词用布尔逻辑语OR来连接，可以很好的扩大检索范围。再如，利用宽容的检索方法检索，像英文单词中经常会有一部分相同的部分，那些可变换的部分就可以用截词检索代替。还有英文名词的单复数形式，如果我们要找“女性”的相关资料，只输入“woman”检索就会漏检很多，还应该对它的复数形式“women”也进行检索。还比如英文的缩写形式，比如我们要找“慕课”相关的文献，如果我们只是输入“慕课”就可能会漏掉相关重要信息，我们还应该用它的缩写形式去检索，输入“MOOC”或者它的英文全称“Massive Open Online Courses”，这样分别去检索才不会遗漏掉重要文献资料。如果是因为我们的限制太多导致检索结果太少，那么可以考虑去掉一两个限制。因为每一个检索工具收录的范围和内容有一定的侧重点和有限性，所以我们也可以考虑更换不同的检索工具进行检索。其次，当检索结果太多的时候，我们也应该采取一定的措施缩小检索范围。例如用布尔逻辑运算符AND和NOT连接检索词，用AND多加几个检索词进行限定，或者用NOT排除一些限定；使用检索词的下位词进行检索；对一些专有名称，专业术语加上引号进行精确检索也可以缩小检索范围，从而实现更精确地检索；对检索词加上一定的限制，如对它的时间、机构、网站、文献格式等进行一个限制；除此之外，我们还可以利用检索工具本身所具备的二次检索功能来筛选检索结果，从而缩小检索结果。

（七）求助专业人士

如果通过上述途径仍然不能取得理想的文献信息资料，我们可以通过一些掌握现代技术的、具有丰富科学研究经验的专业人士来获取我们想要的文献信息。例如，有很多图书馆的网站主页上都会有在线咨询的功能，我们可以通过在线咨询的服务功能从图书馆员那里获取文献信息资料。很多图书馆都开通了馆际互借的功能，通过馆际互借，我们可以共享很多成员馆的文献信息资源，而这些庞大且宝贵的文献信息资源经常会被老师们和学生们忽略掉。再如，我们还可以求助一些在线的问题回答类的网站，像百度知道、知乎等，还有国外比较权威的网站像AIIExperts等，通过询问这些网站上的一些权威专家，也可以为我们的学习和研究提供宝贵的意见。

总之，互联网是一个非常开放的空间，如果善于应用，我们不仅可以贡献自己的经验和智慧来为他人服务，我们也可以共享他人的智慧来为我们自己的研究和学习服务。

四、结语

信息检索的最终目的是通过解决各种各样的问题，进而提高学习和科学研究能力。正如美国文献家赫伯特所言：“知识的一半，是知道到哪里去寻找它。明日的文盲，不是不能阅读的人，而是缺乏检索能力的人。”互联网时代文献信息检索能力比文献信息本身更重要。来自美国的非盈利性机构“今日信息科学网站”的一份报告“Information Literacy A Skill for Life”也在呼吁互联网时代新的技能，即媒体与信息素养。由此看来，信息素养的培养不光适用于高校信息素养教育，同时也具有世界性的重要意义。文献信息知识伴随着社会的发展而迅速更新和积累，高校应强化对信息检索的指导，提高信息检索能力，助力高校教学和科学研究。

五、参考文献

[1]陈振标.文献信息检索、分析与应用[M].北京:海洋出版社,2016:19.

[2]陆和建,姜丰伟.新信息环境下高校信息检索课教学方式的优化策略[J].大学图书馆学报,2015(2):96—99,112.

[3]万爱群,杨红.浅谈开设《信息检索与利用》课程的必要性[J].广西质量监督导报,2007(6):105—118.

计算机检索、网络文献检索将成为信息检索的主流。网络信息检索，也即网络信息搜索，是指互联网用户在网络终端，通过特定的网络搜索工具或是通过浏览的方式，查找并获取信息的行为。信息检索的对象包括：文献检索（Document Retrieval)，是以文献（包括题录、文摘和全文）为检索对象的检索，可分为全文检索和书目检索两种；数据检索（Data Retrieval)是以数值或数据（包括数据、图表、公式等）为对象的检索；事实检索（Fact Retrieval)是以某一客观事实为检索对象，查找某一事物发生的时间、地点及过程的检索。 1990年以前，网络信息检索的现状与发展没有任何人能够检索互联网上的信息。应该说，所有的网络信息检索工具都是从1990年的Alan Emtage等人发明的Archie开始的，虽然它当时只可以实现简单意义上的FTP文件检索。随着World Wide Web的出现和发展，基于网页的信息检索工具出现并迅速发展起来。1995年基于网络信息检索工具本身的检索工具元搜索引擎由美国华盛顿大学的Eric Selberg 等发明。伴随着网络技术的发展，网络信息检索工具也取得了十足的发展，那么这些检索工具的现状和发展趋势如何呢？ 1.基于网页的网络信息检索工具的现状和发展趋势现状。网页是因特网的最主要的组成部份，也是人们获取网络信息的最主要的来源，为了方便人们在大量繁杂的网页中找寻自己需要的信息，这类检索工具发展的最快。一般认为，基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页，然后自动给网页上的某些或全部字符做上索引，形成目标摘要格式文件以及网络可访问的数据库，供人们检索网络信息的检索工具。网络目录则是和搜索引擎完全不同，它不会将整个网络中每个网站的所有页面都放进去，而是由专业人员谨慎地选择网站的首页，将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多，再加上不同的网络目录分类标准有些混乱，不便人们使用，因此虽然它标引质量比较高，利用它的人还是要比利用搜索引擎的人少的多。

四、智能检索智能检索利用分词词典、同义词典，同音词典改善检索效果，比如用户查询“计算机”，与“电脑”相关的信息也能检索出来；进一步还可在知识层面或者说概念层面上辅助查询，通过主题词典、上下位词典、相关同级词典，形成一个知识体系或概念网络，给予用户智能知识提示，最终帮助用户获得最佳的检索效果，比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外，智能检索还包括歧义信息和检索处理，如“苹果”，究竟是指水果还是电脑品牌，“华人”与“中华人民共和国”的区分，将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理，高效、准确地反馈给用户最需要的信息。五、计算机信息检索随着1946年世界上第一台电子计算机问世，计算机技术逐步走进信息检索领域，并与信息检索理论紧密结合起来；脱机批量情报检索系统、联机实时睛报检索系统相继研制成功并商业化，20世纪60年代到80年代，在信息处理技术、通讯技术、计算机和数据库技术的推动下，信息检索在教育、军事和商业等各领域高速发展，得到了广泛的应用。DiMog国际联机情报检索系统是这一时期的信息检索领域的代表，至今仍是世界上最著名的系统之一。在单语言检索中，计算机检索系统利用网络蜘蛛进行网络信息的收集，然后利用自动标引技术对搜集的信息进行标引形成索引信息库。用户输入检索式后，计算机把检索式与数据库中索引项进行匹配，按索引式与标引项相关性大小降序输出检索结果。跨语言检索中，只要在检索过程中加入语言处理技术，就可以使一种语言与其他语言对应。信息检索是经济生活和科学研究的一个重要组成部分，尤其在今天这个飞速发展的信息时代，如何广泛、快速、准确地获取对自己有价值的信息，特别是如何借助电子化、网络化的手段去获取有价值的信息，直接影响到教学、科研等工作的成败。因此信息检索的方法和技能，越来越成为现代科技工作者和教师所必备的基本技能。目前，计算机信息检索已成为广大用户获取信息的主要方式，而且呈现出联机信息检索、光盘信息检索以及因特网信息检索多元并存的信息检索格局。如何快速、准确及有效地检索到所需信息，已成为日益突出的问题，那么，了解各信息检索系统的特点是实施信息检索最基本的前提。下面就其三种计算机信息检索系统作一介绍。1．联机信息检索系统。所谓联机信息检索，是指信息用户利用终端设备，通过国际通讯网络与世界上的信息检索系统，进行直接的人机对话，从检索系统的数据库中查找出用户所需信息的全过程。一个联机信息检索系统，通常由检索服务机构、国际通讯网络和终端组成。2．光盘信息检索系统。光盘信息检索系统是单机信息检索系统的一种，它解决了单机检索系统数据存储量少的缺点，是目前应用较为广泛的一种计算机信息检索系统。在信息检索领域应用的光盘主要是只读光盘。3．因特网信息检索。作为用户最多、影响最大的计算机网络，因特网堪称世界上资源最丰富的信息库和文档资料库，几乎能满足全球范围内对任何信息的需求。因特网信息检索系统一般由计算机服务器、通信网络、通信协议。网络信息检索服务器、用户终端等构成。六、网络信息检索网络信息检索简单地10说就是网络环境下的信息检索。它与传统信息环境下的检索有很大的不同，网络信息检索具有多样性、灵活性也超出了传统的信息检索。原来传统途径可获得的信息，现在几乎全部可以通过网络检索得到，而且更快、更新、更准确。随着计算机、多媒体和现代通讯技术的飞速发展，以印刷型文献为主的学校图书馆开始向以电子信息和虚拟信息为主的数字图书馆转化，Internet创造了丰富和多元化的学习资源，实现了资源共享。随着学习社会化、终身学习体系的诞生和进一步推进，网络在中小学教育中的应用也日益广泛和深入起来。Internet为我们带来了丰富的学校综合教育信息资源，它是提供Internet上的可用于学校综合教育过程的，在学校教育系统中传递的信息。近几年，Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。信息内容涉及广泛，几乎包括工农业生产、科技、教育、文化艺术、商业、资讯、娱乐休闲等诸多方面。在Intemet上，购物、在线教育、在线股市、远程医疗、点播电影、网络会议、网络展览都已变成现实，成为人类技术和文明的巨大财富，是全球取之不尽，用之不竭的信息资源基地。丰富信息资源带到人们面前的同时，也带来了问题：人们在蕴含丰富的信息面前无所适从，在浩如烟海的信息海洋中迅速、准确获取自己最需要的信息，变得十分困难。因此，20世纪90年代中期出现了检索万维网信息资源的搜索引擎技术。万维网是目前因特网上最受欢迎的检索服务系统，它利用超链接技术将全球的信息资源连接起来，用户通过浏览器就可以实现对网站页面的访问。21世纪是一个高度信息化的社会，信息就是商品、信息就是财富、信息就是资源、信息就是机会，因此人人都渴望及时获得有用的信息。如果说搜集信息是人类赖以生存、发展的一种本能，那么信息检索则是每个大学生和科研人员必须具备的一种基本技能。在计算机、网络通信技术日新月异，互联网遍及世界各个角落的今天，我们正身置于广袤无垠的信息海洋中。面对这样一个新知识、新技术不断涌现、知识新陈代谢频繁的世界，想要一劳永逸地获取知识是不可能的。我们只有终身学习，不断地获取、更新知识，才能不被社会所淘汰。要有效、快速地获取和利用最新信息，就必须掌握信息检索的技能。大学生在校求学期间所获得的不应该仅仅是“黄金”，更重要的是应获得“点金术”，其中之一就是信息检索的能力。通过检索和利用各种信息，不仅可以深化所学的知识；而且可以开阔视野，拓宽知识面；也为自学前人的知识、不断更新知识以及从事科学研究和发明创造奠定基础。

论信息检索技术的重要性论文

我给你找了一篇，摘要如下：随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本，贴在下面：网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样，包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播;“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率;再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户;触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之!2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁’时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询;二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[’“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔’3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得;其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检;第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词……………………………………太长发不全希望对你有用实在不行联系我（给我留言）我发给你邮箱。

我给你找了一篇，摘要如下:随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本，贴在下面:网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面；其媒体形式多种多样，包括文本、图形、图像、声音、视频等；其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文；②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文；由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播；“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率；再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息；邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页；专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户；触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之，2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询；二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成；三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得；其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔41。信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题；第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检；第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词。

现代信息检索论文: 现代信息检索方法的探讨要想充分利用这些浩如烟海的文献信息资源，必须借助各种各样的检索工具。同时，因特网信息资源的骤增及其异构性、动态性，不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理，从本质上变革信息资源检索方法，已成为现代化信息知识检索理论研究的热点。实践证明，将人工智能技术与信息技术结合，发挥人工智能的作用，是一条成功的经验。下面就知识检索与信息检索的关联和发展，作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配，是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种，分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式，计算机将根据提问式与系统中的记录进行匹配，当两者相符时则命中，并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”，表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”，表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”，表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的，对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求，除要掌握检索课题的相关因素外，还应在布尔算符对检索结果的影响方面引起注意。另外，对同一个布尔逻辑提问式来说，不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索。它是基于信息组织形式，如字符串、结构化数据库，应用信息处理方法，如排序数据查找、字符匹配，实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术，改进了基本检索功能，但缺点是对精确的提问不能给出精确的回答。从历史上看，信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前，信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容；信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众，他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是，模拟扩展人类关于知识处理与利用的智能行为和认识思维方法，是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如：抽象思维方法，形象思维方法。知识检索具有明显的优势：①实现信息服务向知识服务的转化，向用户提供潜在内容知识，以及分析预测后的超前性领域成果或知识。②提供主动服务方式，自动优化用户需求，主动提供个性化检索。③面向用户，依据用户的需求及其变化，能灵活选择理想的检索策略和技术，并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术，全面提高检索效率。知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术，基于知识和知识组织，融合知识处理和多媒体信息处理等多种方法与技术，充分表达和优化用户需求，能高效存取所有媒体类型的知识源，并能准确精选用户需要的结果。

信息检索论文的检索方法

1．顺查法顺查法指按照时间的顺序，由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献，它适用于较大课题的文献检索。例如，己知某课题的起始年代，现在需要了解其发展的全过程，就可以用顺查法从最初的年代开始，逐渐向近期查找。该方法优点是漏检率、误检率比较低，但工作量大。 2．倒查法倒查法是由近及远，从新到旧，逆着时间的J顺序利用检索工具进行文献信息检索的方法。此方法的重点是放在近期文献，只需查到基本满足需要时为止。使用这种方法可以最快地获得新资料，而且近期的资料总是既概括了前期的成果，又反映了最新水平和动向，这种方法工作量较小，但是漏检率较高，主要用于新课题立项前的调研。 3．抽查法抽查法是针对检索课题的特点，选择有关该课题的文献信息最可能出现或最多出现的时间段，利用检索工具进行重点检索的方法。它适合于检索某一领域研究高潮很明显的、某一学科的发展阶段很清晰的、某一事物出现频率在某一阶段很突出的课题。该方法是一种花时较少而又能查到较多有效文献的一种检索方法。 4．追溯法追溯法是指不利用一般的检索工具，而是利用已经掌握的文献末尾所列的参考文献，进行逐一地追溯查找“引文”的一种最简便的扩大情报来源的方法。它还可以从查到的“引文”中再追溯查找“引文”，像滚雪球一样，依据文献间的引用关系，获得越来越多的内容相关文献。 5．综合法综合法又称为循环法，这是把上述方法加以综合运用的方法。综合法既要利用检索工具进行常规检索，又要利用文献后所附参考文献进行追溯检索，分期分段地交替使用几种方法。即先利用检索工具(系统)检到一批文献，再以这些文献末尾的参考目标为线索逆行查找，如此循环进行，直到满足要求时为止。

信息检索的基本方法是：普通法、追溯法和分段法。

1、普通法：利用书目、文摘、索引等检索工具进行文献资料查找的方法。运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程，从不同角度查找。普通法又可分为顺检法和倒检法。

2、追溯法：利用已有文献所附的参考文献不断追踪查找的方法，在没有检索工具或检索工具不全时，此法可获得针对性很强的资料，查准率较高，查全率较差。

3、分段法：追溯法和普通法的综合，它将两种方法分期、分段交替使用，直至查到所需资料为止。

扩展资料

信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世，计算机技术逐步走进信息检索领域，并与信息检索理论紧密结合起来。

信息检索的目标，或者说基本的任务，就是从一大堆信息中找到我们需要的某部分信息。进一步使之更加具体：信息检索的目标是在一大堆文档等非结构化信息中根据我们的需求挑选出我们需要的部分文档。

参考资料来源：百度百科-信息检索

文献信息检索的方法方式有好多，以下是我为大家整理的关于文献信息检索的方法和途径，欢迎阅读!

文献信息检索的方法和途径

文献检索步骤：文献检索是一项实践性很强的活动，它要求我们善于思考，并通过经常性的实践，逐步掌握文献检索的规律，从而迅速、准确地获得所需文献。一般来说，文献检索可分为以下步骤：

(1)明确查找目的与要求。

(2)选择检索工具

(3)确定检索途径和方法

(4)根据文献线索，查阅原始文献

文献检索方法

(1)、直接法

又称常用法，是指直接利用检索系统(工具)检索文献信息的方法。它又分为顺查法、倒查法和抽查法。

(1)顺查法

顺查法是指按照时间的顺序，由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献，它适用于较大课题的文献检索。例如，已知某课题的起始年代，现在需要了解其发展的全过程，就可以用顺查法从最初的年代开始，逐渐向近期查找。

(2)倒查法

倒查法是由近及远，从新到旧，逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。

(3)抽查法

抽查法是指针对项目的特点，选择有关该项目的文献信息最可能出现或最多出现的时间段，利用检索工具进行重点检索的方法。

(2)、追溯法

是指不利用一般的检索系统，而是利用文献后面所列的参考文献，逐一追查原文(被引用文献)，然后再从这些原文后所列的参考文献目录逐一扩大文献信息范围，一环扣一环地追查下去的方法。它可以像滚雪球一样，依据文献间的引用关系，获得更好的检索结果。

(3)、循环法

又称分段法或综合法。它是分期分交替使用直接法和追溯法，以期取长补短，相互配合，获得更好的检索结果。

文献的检查途径

简单地说，就是查找文献的方法。常用查找文献的方法有检索工具法、引文追踪法、综合法和浏览法。

检索工具法

检索工具法是指直接利用检索工具(系统)检索文献信息的方法，这是文献检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。

1)顺查法：是指按照时间的顺序，由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献，它适用于较大课题的文献检索。例如，已知某课题的起始年代，现在需要了解其发展的全过程，就可以用顺查法从最初的年代开始，逐渐向近期查找。

2)倒查法：是指由近及远，从新到旧，逆着时间的顺序利用检索工具进行文献检索的方法。此法多用于查找新课题或有新内容的老课题，在基本上获得所需信息时即可终止检索，因而它更多地关注于最近一个时期内的较新文献，可保证文献信息的新颖性，并且也可提高检索的效率。但由于这种方法不太关注历史渊源和全面系统性，易于产生高漏检率，影响检索的全面性。

3)抽查法：是指针对学科特点，抓住该学科发展迅速、文献发表较多的一段时间逐年检索的方法。当学科处于兴旺发展时期，其研究成果和发表的文献一般也较多。这种方法针对性强，省事省力，效率高。但必须是在熟悉学科发展阶段的基础上才能使用，否则要影响检所的全面性和准确性。

引文追踪法

也称参考文献查找法、跟踪法、追溯法等，它是以一篇现有文献(特别是专著和综述)为依据，以其文后所附参考文献为线索，进一步追踪、查找相关文献。这是—种扩大信息来源最简单的方法，在没有检索工具或检索工具不完整时刻借助此法获得相关文献。这种方法的优点在于文献涉及范围比较集中，针对性强，往往会找出有关研究领域中重要的、丰富的原始资料，而且获取文献资料也方便迅速，并可不断扩大检索的范围和线索。但由于受文献资料原作者引用资料的局限性及主观随意性等因素的影响，不仅容易出现漏检现象，而且检索的资料也往往比较杂乱，缺乏可靠性和时序性。

综合法

又称为循环法，它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索，又要利用文献后所附参考文献进行追溯检索，分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献，再以这些文献末尾的参考目录为线索进行查找，如此循环进行，直到满足要求时为止。

综合法兼有检索工具法和引文追踪法的优点，可以查得较为全面而准确的文献，是实际中采用较多的方法。对于查新工作中的文献检索，可以根据查新项目的性质和检索要求将上述检索方法融汇在一起，灵活处理。

浏览法

浏览法是指研究人员平时对与本专业或本学科相关的原始文献资料进行浏览、阅读和积累的一种方法。由于检索工具与原始文献之间一般有6个月左右的时间差，为了弥补这些缺陷，就需要研究人员及时阅读最新生产的原始文献，不断积累相关资料，跟踪学科发展的前沿。

文献检索的方法多种多样，究竟采用哪种方法更合适，需要根据学科的特点、检索的要求和检索的条件来确定，一般以检索工具法为主，其他方法作为补充。

2.文献检索途径

文献检索途径即检索工具、检索系统提供给用户用于检索所需文献的检索入口。为了适应用户多样化的需求特点，基于文献的某些特征，检索工具(检索系统)往往制作各种索引，设置各种各样的检索途径，如主题途径、题名途径、关键词途径、摘要途径、关键词途径、分类途径、著者途径等。

1) 主题途径

主题途径是指通过文献资料的内容主题进行检索的途径，它依据的是各种主题索引或关键词索引，检索者只要根据项目确定检索词(主题词或关键词)，便可以实施检索。

主题途径检索文献关键在于分析项目、提炼主题概念，运用词语来表达主题概念。主题途径是一种主要的检索途径。

2)题名途径

题名途径是以书名、刊名、篇名等文献名称作检索标识来查找文献的途径。

3)著者途径

著者途径是指根据已知文献著者来查找文献的途径，它依据的是著者索引，包括个人著者索引和机关团体索引。

4)分类途径

分类途径是从文献所属学科类目来检索的途径，它所依据的是检索工具中的分类索引。

分类途径检索文献关键在于正确理解检索工具的分类表，将待查项目划分到相应的类目中去。

5)其他途径

其他途径包括利用检索工具的各种专用索引来检索的途径。专用索引的种类很多，常见的有各种号码索引(如专利号、入藏号、报告号等)，专用符号代码索引(如元素符号、分子式、结构式等)，专用名词术语索引(如地名、机构名、商品名、生物属名等)。

3.文献检索步骤

文献检索步骤与检索的具体要求密切相关，科技文献检索中最常见的检索要求是查找有关某一课题的针对性文献，大致可分为以下几个步骤。

分析检索课题，明确检索要求

1)分析主题内容，确定检索主题词

对检索课题进行深入的主题分析，明确所需文献的具体内容、性质和特点，并形成检索的主题概念，力求检索的主题概念能准确地反映检索要求，并找出与之有关的所有主题词。

举例：如检索“土壤环境条件对豆科植物固氮作用的影响”的文献，若仅从课题题目的“土壤环境”、“豆科植物”、“固氮作用”做主题词是很不够的，应对课题做更深入细致的主题概念分析，选择一些与主题内容关系密切的词语一起作为主题词，如决定土壤环境条件的温度、湿度和PH值，豆科植物中的大豆、花生等，以及在固氮作用中起重要作用的固氮菌、根瘤菌等，这样就能更充分地揭示课题基本内容，查获文献的可能性就会大大提高。

2)据检索的主题概念，确定课题涉及的学科范围

当课题涉及多学科时，以主要学科为检索重点，次要学科为补充，以全面系统地检得所需文献。

3)分析文献类型-提高检索的针对性

若进行基础理论研究，侧重于期刊、图书和学位论文;搞技术创新，侧重于专利文献;做定型产品设计，侧重于标准文献;探讨科学的最新发展及动向研究，侧重于科技报告和会议文献。

4)分析查找年代

根据课题的历史背景和检索要求，确定检索的最有可能、最为适宜的时间范围。如申请专利的查新检索，回溯年限要长，而了解课题的研究水平与动向等，回溯时间可短。

5)分析地区范围：以便针对性选择检索的语种、国别和地区

如检索“茶叶加工技术”的文献，应以中文、日文为主要语种，主要在中国、日本及东南亚一些有饮茶习惯的国家和地区的文献中查找;而检索“生物技术”的文献，应以英文为主要语种，主要在美国等西方发达国家的文献中查找。

选择检索工具，确定检索方式

由于用于检索数字资源的数据库种类很多，各数据库的内容也有很大差别，正确选用合适的数据库就显得非常重要。选择数据库之前应弄清课题明确的检索要求，所需要的主要文献类型等事项。

许多数据库提供多种检索方式，如《中国期刊全文数据库》提供了初级检索、高级检索、专业检索和分类检索等途径，搜索引擎如百度等提供简单检索与高级检索界面。初级检索虽然简单明确、易学易用，但检索速度、查准率和查全率都低于命令检索。而专业检索可以综合应用各种检索运算符或操作命令精确地表达检索需求，灵活地进行各种检索方案的检索，较为简捷、快速地得到较为理想的检索效果，但是需要用户熟悉各种系统的检索操作符，适合于有经验的检索人员。因此高级检索方式更适合一般用户，其界面操作简单，对用户的检索技能要求不高，而且检索功能设置较为充分和灵活，基本上能满足用户的检索需求。

选择检索途径，确定检索策略式

数据库都会根据文献的内容特征和外部特征提供多种检索途径，除主要利用主题途径、篇名途径、摘要途径和关键词途径外，还应充分利用分类途径、著者途径等多方位进行补充检索，以避免单一种途径不足所造成的漏检。

检索策略式是通过检索界面的构造来表达用户检索提问的逻辑表达式。一般一个课题需用多个检索词表达，并且将这些检索词用一定的方法确定关系，以完整表达一个统一的检索要求。在编制检索提问式时，准确、合理地运用位置逻辑算符、截词符、字段符等技术是编制检索式的基本要求。

查找相关文献，修正检索策略式

实施检索后，获得的检索结果即为文献线索，对文献线索进行整理，分析其相关程度。根据检索的结果，判断检索策略式是否合适。如果检索的结果不合适，就需要分析原因，修正检索策略式。经过反反复复的实验性检索，直到结果符合要求为止。

获取原始文献

对于全文数据库，多数文献可以直接下载全文。对于不能直接下载全文的文献，可根据检索结果中提供的文献线索，索取原文。

检索方法是指实现检索计划的具体方法，检索方式不同，方法也不一样。常用的信息检索方法有常规法（包括顺查法、倒查法、抽查法）、追溯法、综合法（也叫做循环法，是常规法和追溯法的综合）、搜索引擎法、导航法等。

信息检索与学术写作论文

信息检索与分析利用这门课专题六学术信息选择、评价与学术论文写作的知识点包含模块导引,单元一学术信息选择评价,单元二学术论文写作,单元三学位论文查询途径。

本书是一部具有参考工具书特点的学术研究入门与信息素养教育读本，其整体框架有别于其他同类书籍。编著者将文献信息检索、学术规范与论文写作看作学术研究的基本要素，并置于信息素养教育的基本范畴之内。全书基于学术研究的一般范式与信息素养教育的基本规律，系统地说明了文献信息检索基础知识、基本技能，以独特的视角介绍了各种文献特点与分布，一些常用传统文献检索工具的编排组织规则和使用方法，电子文献信息检索技术，境内外著名的开放获取资源以及经典的中外文题录或文摘数据库、引文数据库、全文数据库的特点和检索技能，文献原文获取的技巧和方法，纸质文献与电子文献合理使用的范畴，学术论文的写作规范、撰写方法、投稿技巧与校样审读要领等。本书可作为高等院校本科生、研究生的文献信息检索与论文写作课程的教材，也可作为科研人员、科研管理者和图书情报工作者的参考书和指南。

论文肯定得自己写啦，给网址也没得用啊，那都是别人写好了的。专业写作发表。

信息检索课论文

高校文献信息检索的必要性与有效方法论文

关键词：文献；信息检索；策略；

一、文献信息检索定义

“信息检索（Information Retrieval）”一词最早出现在20世纪50年代，有广义和狭义之分。

二、高校文献信息检索的必要性

（一）信息的多元化需要师生具备一定的信息评价和筛选能力

（二）学校对学生的信息素养教育重视程度不够

（三）信息检索助力高校科学研究

三、高校文献信息检索的策略

（一）分析检索问题

（二）选择合适的检索工具

（三）抽取恰当的关键词

选取科学适当的检索工具后，下一步工作就是确定检索关键词。

（四）构造检索式

（五）筛选检索结果

（六）调整检索策略

（七）求助专业人士

四、结语

五、参考文献

[1]陈振标.文献信息检索、分析与应用[M].北京:海洋出版社,2016:19.

[2]陆和建,姜丰伟.新信息环境下高校信息检索课教学方式的优化策略[J].大学图书馆学报,2015(2):96—99,112.

[3]万爱群,杨红.浅谈开设《信息检索与利用》课程的必要性[J].广西质量监督导报,2007(6):105—118.

“信息资源共享”课程检索报告一检索课题数字图书馆个性化服务研究现状二主题分析随着数字图书馆建设和网络通讯技术的高速发展, 数字资源越来越多, 而人们获取所需资源的可能性则越来越少, 用户需求的专业化、垂直化激化了数字图书馆大量信息数据库与用户需求之间的矛盾。1999 年, 美国图书馆与信息技术联合会(LITA) 10 位著名的数字图书馆专家在研讨会上, 把个性化定制服务列为数字图书馆发展的7 大趋势之首。目前, 数字图书馆个性化的信息服务已经开始得到普遍的关注, 人们正在为提供个性化信息服务做出努力的尝试。数字图书馆个性化服务是近几年数字图书馆研究中受到关注较多的一个研究方向，数字图书馆个性化服务是基于信息用户的信息使用行为，习惯，偏好，特点及用户特定的需求，来向用户提供满足其个性化需求的信息内容和系统功能的一种服务。关于数字图书馆个性化服务研究现状，该主题涉及到：（1）数字图书馆个性化服务的有哪些介绍（2）数字图书馆个性化服务的模式有什么（3）数字图书馆个性化服务的技术研究有哪些（4）数字图书馆个性化服务研究的最新进展（2005年-2007年）三检索情况（一）检索工具1．维普中文期刊数据库（1989-2007）2．中国期刊全文数据库（1994-2007）（二）检索过程1．检索途径关键词题名主题词2．检索用词数字图书馆关键词或题名、主题词个性化服务关键词或题名、主题词3．检索策略（1）维普中文期刊数据库(题名或关键词=数字图书馆)*(题名或关键词=个性化服务) 在高级检索中选择题名或关键词字段，输入“数字图书馆”和“个性化服务”两个检索词进行限定，年代限定在2005-2007年，共检索出78条记录。（2）中国期刊全文数据库（题名或关键词=数字图书馆）* (题名或关键词=数字图书馆)在高级检索中选择篇名字段，输入“数字图书馆”与“个性化服务”，年代限定在2005-2007，共检出89条记录。四检索结果分析（一）检索结果经检索上述两个数据库，有关数字图书馆个性化服务的研究论文众多，现选出其中具有代表性，研究主题未重复的文献。1．中国期刊全文数据库（1）数字图书馆个性化信息服务系统研究刘燕平图书情报工作 2006/S2（2）数字图书馆个性化服务系统分类体系问题叶红科技信息(学术研究) 2007年13期（3）浅析智能搜索引擎技术及其在数字图书馆个性化信息服务中的应用王林廷高校图书情报论坛 2006年01期（4）数据挖掘技术在数字图书馆个性化服务中的应用朱冰冰科技情报开发与经济 2006年24期（5）数字图书馆个性化信息服务发展研究马维华郑州大学学报(哲学社会科学版) 2006年06期（6）智能推送技术在数字图书馆个性化服务中的应用石岩情报探索 2006年11期（7）基于文本过滤的数字图书馆个性化服务技术张帆计算机工程与应用 2006年31期（8）数字图书馆信息门户的个性化服务模式何平中国信息导报 2006年08期（9）网络信息技术下的数字图书馆个性化服务张丹林区教学 2006年07期（10）MyLibrary——数字图书馆个性化服务新趋势杨华农业图书情报学刊 2006年08期（11）基于Web服务组合的数字图书馆个性化动态定制服务构建张晓青情报学报 2006年03期（12）校园网中数字化图书馆个性化服务的实现朱江峰科技经济市场 2006年01期（13）数字图书馆的个性化推送服务白雪松图书馆杂志 2005年09期（14）Web日志挖掘在数字图书馆个性化服务中的应用王英培科技情报开发与经济 2005年22期（15）国内外数字图书馆个性化信息服务系统的功能与特征比较研究张俊情报理论与实践 2005年06期（16）基于知识管理的数字图书馆个性化服务机制研究郭琳四川图书馆学报 2004年05期2．维普中文期刊数据库（17）基于Web挖掘的数字图书馆个性化技术研究王艳张帆情报杂志 2007年1期（18）基于文本过滤的数字图书馆个性化服务技术张帆杨炳儒计算机工程与应用 2006年31期（19）数字图书馆信息门户的个性化服务模式何平陈有志中国信息导报 2006年8期（20）个性化服务深度与广度解决方式探讨刘月胜数字图书馆论坛 2006年6期（21）个人数字图书馆模式的分析石德万李军现代情报 2005年9期（22）数字图书馆个性化信息环境与服务构建杜安平韶关学院学报 2005年3期（23）数字图书馆个性化信息服务的技术实现张云瑾许春漫农业图书情报学刊 2005年6期（24）个性化信息服务的模式研究及策略分析杜春光国家图书馆学刊 2005年2期（二）检索结论文献一论述了个性化信息服务的涵义,阐述数字图书馆开展个性化信息服务的有利条件,国内外图书馆的有关研究开发状况,分析国内数字图书馆个性化信息服务系统应用实例,并时其工作流程,主要功能进行剖析,指出该系统目前存在的问题,提出改进对策。文献二围绕数字图书馆个性化服务系统分类体系问题展开探讨。首先,简要介绍数字图书馆个性化服务系统的主要内容,包括其定义和服务内容。其次,从用户分类和信息分类两个方面阐述目前数字图书馆个性化服务系统存在的问题。用户分类主要存在的两个问题,根据用户特点分析提出相应建议。信息分类问题从五个方面进行讨论,列举数字图书馆个性化服务系统页面进行分析,提出解决方法。文献三介绍了智能信息检索的实质和发展方向,是智能搜索引擎技术的不断改进和广泛应用。以这一技术为基础构建数字图书馆的个性化服务系统,是数字图书馆信息服务的现实需要。文章论述了当前搜索引擎存在的不足,概述了智能搜索引擎的原理机制及其优越性,探讨了该技术在数字图书馆个性化服务中的应用。文献四阐述了数字图书馆的定义,介绍了个性化服务的工作原理和国内外个性化服务系统的现状,探讨了分类模型、关联模型、序列模型、聚类模型、回归模型以及时间序列模型的原理,对如何把其用在数字图书馆的个性化服务上以描述用户需求,提出了建议。文献五介绍了数字图书馆个性化信息服务是当今图书馆发展的重要趋势,目前国内外都已有比较成熟的数字图书馆个性化信息服务系统,服务方式及其功能也多种多样,但是探索图书馆个性化信息服务有效模式的任务仍很艰巨。文献六介绍了智能推送技术和个性化服务的内容,讨论了将智能推送技术应用于数字图书馆个性化服务,以及智能推送技术存在的优势与不足。文献七提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献八试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展建势。文献九简述了数字图书馆个性化服务的内涵,分析了网络信息技术对其各项服务的支撑,并通过My Library实例对这些具体技术的集成化运用加以探讨,为构建可互操作的数字图书馆个性化服务系统提供参考。文献十就My Library(我的图书馆)的产生,及其概念、类型、特征、原理、功能等诸方面做了简要的论述,并介绍了它在国内外的发展现状,指出其今后的发展方向。文献十一介绍了Web服务组合是一种利用现有Web服务动态构建新的能满足用户需求的复杂Web服务的Web服务技术。将数字图书馆各种资源组件、应用组件、功能组件和管理组件进行Web服务描述,人们就能利用Web服务组合技术根据用户的个性化需求实现对不同数字图书馆各种组件的动态集成,从而实现开放环境下数字图书馆的个性化动态定制服务。本文讨论了基于Web服务组合的数字图书馆个性化动态定制服务的基本系统架构、构建模型,并对构建过程中需要注意的几个问题展开了讨论。文献十二介绍了数字化图书馆建设是图书信息化发展的必然,而个性化服务能够根据用户不同的特点,提供切实的服务,以更好地为读者服务。本文对数字化图书馆的个性化服务进行了讨论,分析了关键的实现技术,并给出了部分核心代码。文献十三介绍了个性化推送服务是数字图书馆研究的热点,也是建设数字图书馆的关键问题之一。本文针对各种不同的信息形式提出了相应的实现方案,并对实际操作中的几个难点事项做了简要讨论。文献十四介绍了Web日志挖掘的基本概念和过程,指出通过对读者在数字图书馆服务中留下的日志信息进行挖掘,可以实现个性化服务,更好地满足不同类别读者的需求。文献十五从个性化信息服务的概念入手,介绍了个性化信息服务的几种类型,包括分类定制服务、信息推送服务、智能代理服务和垂直门户服务等,并介绍了目前国内外若干图书馆已经开展的个性化信息服务的典型应用实例。在此基础上总结了这些个性化信息服务系统的共同功能与特征,并进行了一些比较研究。文献十六介绍了构建一个基于信息过滤技术的信息服务系统是数字图书馆实现个性化信息服务的有效手段。通过对信息过滤技术概念的研究和与信息检索概念的比较,抽象出此类系统的一般模型,并沿用查全率和查准率评价信息过滤的效果,最后分析了个性化信息服务系统实现的关键技术。文献十七提出一种基于Web挖掘技术的个性化实现策略，针对数字图书馆资源的文献，改进了经典的算法，分别从Web内容挖掘、结构挖掘和日志挖掘出发，建立用户动态的兴趣特征模型，使之更具有实用性和针对性。文献十八提出在数字图书馆的应用中，个性化服务可以为用户提供符合其兴趣的检索结果。提供了一种针对数字图书馆个性化服务策略的文本过滤技术，通过在向量空间内建立用户兴趣模型和文本内容特征模型，计算它们的相似度后，将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法，最后给出了在实际的数字图书馆工程中的验证结果。文献十九试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展趋势。文献二十提出数字图书馆的个性化服务决定了它在借助网络技术的基础上向学科馆和联盟制方向发展，以提高资源的利用率和解决个性化服务的深度与广度问题。文献二十一根据个人数字图书馆文献信息资源存储位置的不同．把个人数字图书馆划分为远程个人数字图书馆和本地个人数字图书馆两种模式，着重对这两种模式的个人数字图书馆的功能特点进行比较分析。文献二十二提出构建数字图书馆的个性化信息服务实际上就是要在数字图书馆上实现个性化资料、个性化检索、个性化过滤、个性化服务等四种环境．数字图书馆可以开发个人图书馆、检索帮助、个性化信息咨询、信息代理、垂直门户等多种个性化信息服务。文献二十三阐述了数字图书馆个性化信息服务的概念、研究与应用的现状，并分析了实现数字图书馆个性化信息服务所需的技术。文献二十四强调个性化信息服务在数字图书馆中有其特定的定义，也是数字图书馆发展中的必需。根据网络环境下图书馆信息服务的内容及用户行为的不同，可以有多种个性化服务模式，有策略地开展服务。（三）结果分析从2005-2007年所发表的关于图书馆学个性化服务的论文可以看出，研究的主题和方向主要集中在以下几个方面：1．数字图书馆个性化服务的概念研究。在中国期刊全文数据库检索到的89篇文章中，有40篇是论述图书馆个性化服务概念的研究。在这些文章中作者都对数字图书馆个性化服务概念有自己的认识，对于这个概念的研究也越来越深入。2．数字图书馆个性化服务的方式研究。对于数字图书馆个性化信息服务模式, 也在摸索实践中。目前有以下几种方式：（1）信息分类定制服务方式。分定制是指信息用户可以按照自己的目的和需求，在某一特定的系统功能和服务形式中，自己设定信息的资源类型、表现形式，选取特定的系统服务功能等。（2）信息推送服务方式。是运用推送技术（push technology）来实现的一种个性化主动信息服务的方式。（3）信息智能代理服务方式。它是一种能够完成委托任务的计算机系统，能模仿人的行为执行一定的任务，不需要或很少需要用户的干预和指导。通过跟踪用户在信息空间中的活动，自动捕捉用户的兴趣爱好，主动搜索可能引起用户兴趣的信息并提供给用户。（4）信息垂直门户服务方式。通过汇聚网上某一特定专题信息资源并对其进行挖掘及加工，以满足用户基于专业的深入的信息需求。（5）信息帮助检索服务方式。如何帮助用户进行高效的信息检索也是当今数字图书馆信息服务向纵深发展的一个重要内容。（6）数据挖掘服务方式。从数据库中发掘人们感兴趣的知识，这些知识是隐含的、潜在的，目的是帮助用户寻找数据间潜在的关联。（7）信息呼叫中心服务方式。主要利用电话、传真等方式来服务客户，处理简单的呼叫流程。在这些方式中，现在比较热门的个人图书馆（My library）是上述部分个性化服务方式的具体应用，是当前开发应用较为成熟的图书馆个性化服务模式系统，也是一个完全个性化的私人信息空间。3．数字图书馆个性化服务关键技术研究。数字图书馆个性化信息服务的应用技术, 集现代信息技术之大成。它包括推送技术、智能代理技术、智能搜索引擎技术、网页动态生成技术、数据挖掘技术、信息过滤技术、过程跟踪技术、安全身份认证技术、数据加密技术等, 这些都可以为数字图书馆的个性化服务方式提供技术支持。4．国内外数字图书馆个性化服务现状研究。还有一部分论文是主要介绍当今国内外数字图书馆个性化服务的现状，通过介绍这些先进的技术和模式来指导我国数字图书馆个性化的服务。5．其他研究。除了数字图书馆个性化信息服务的概念、模式、技术和国内外研究现状外, 数字图书馆个性化信息服务的研究还就数字图书馆个性化信息服务的模型构建、用户评价、馆员角色的变化、存在的问题与对策等作了深入探讨。综上所述，这两年国内有关数字图书馆个性化服务的研究可谓是硕果累累，随着对数字图书馆个性化信息服务理论研究和实践的不断深入，我国数字图书馆个性化信息服务一定能够真正实现以用户需求为中心, 利用数字图书馆信息资源开展不同层次的、多种类型的、满足用户个性需求的有效信息服务。五检索情况总结由于这个学期开了数字图书馆这门课，对于数字图书馆有一些简单的了解，特别是对个性化信息服务这部分内容有兴趣，课本上涉及得比较少，所以就把这个内容作为了检索主题。在选择检索工具时选择了平时最常用的两个检索工具，本来还选用了中文Google，想找一下国内在研究这个主题的项目或者网站，但是检索到的内容数量实在太庞大，而且检索到的大量结果都来自各个数据库的论文，最后就放弃了使用搜索引擎。在构造检索策略时，因为该主题比较简单，不用构造很复杂的检索式，就选择了“数字图书馆”和“个性化服务”作为关键词，开始有想到是不是需要使用与“数字图书馆”概念相近的“电子图书馆”或者“虚拟图书馆”，但考虑到国内现在已经比较统一的使用“数字图书馆”这个概念，使用其他两个词检索到的文章不多，所以还是以数字图书馆为重点。检索途径选择了关键词，题名以及主题词，在使用中国期刊全文数据库进行检索时，一开始是使用关键词作为检索途径，检索出423条记录，但是有很多文章与该主题相关度不高，所以采用了篇名作为检索途径，这样两个词同时限定在文章题名中，检索的相关度就非常高，但也可能会造成漏检。觉得自从学习检索课程以来，检索最难的就是检索式的构造，检索式构造的好与坏，直接关系到检索结果的好坏。维普提供的字段有题名或关键词字段，使用高级检索将两个检索词都限定在这个字段中，检索出来的结果相对比较精确。检索完成之后，接下来的工作就是分析检索结果，这其实也是难度挺大的一项任务，要看完150几篇文章不是一件简单的事，文摘和篇名这个时候就帮了很大的忙了，一般看文摘可以略知一二，需要了解详细内容的再打开全文阅览。从文章中归纳出研究的主要内容和方向，找出比较有特色而又不重复的内容，最后再整理出结论，这就是我整个辛苦但却有趣的检索过程。通过完成这次作业，首先就是复习与巩固了以往的知识，平时虽然也经常在进行检索，但是严格按照检索步骤进行的就不太多，也没有这么有条理的对整个检索过程做一个安排，并按照计划一步一步的执行，直到完成检索结果。其次就是以往做作业都是完成老师布置的具体任务，有些题目比较简单或是比较有兴趣的检索起来还好，有些比较深奥的主题做起来真的十分困难，没有专业背景，拿到题目和检索出来的结果就觉得十分茫然。而这次老师让我们自己选择题目，我就可以从自己的兴趣和想了解的领域下手，这样完成作业的过程也不再那么枯燥，兴致自然也大了很多。还有最重要的是，做作业的目的不只是完成作业，更重要的是有收获，巩固了检索知识自不用说，通过这次阅读大量文章，也算对所检索的主题有了一个大概的认识和了解，增长了知识，开阔了视野，可是说从完成这次检索作业中的确是收获不少。

生物医学信息检索论文

当代，论文常用来指进行各个学术领域的研究和描述学术研究成果的文章，简称之为论文。下面是生物医学信息检索论文，请参考！

生物医学信息检索课程中双语教学研究

摘要: 本文探讨了双语教学在生物医学信息检索课程中的应用，小结了医学信息检索课程双语教学的方法和技巧，并基于教学实践，对潜在的问题提出了相应的解决方案。

关键词: 生物医学信息检索;双语教学;高等教育

0前言

21世纪全球经济一体化，科学技术飞速发展，英语作为国际上的全球化通用语言，其重要性不言而喻，它发挥的马太效应已经愈来愈明显。而我国传统的英语教育更侧重于理论知识的学习，对更为实际的语言应用能力则有所忽视，尤其是专业英语的教育存在较大的空白，导致相当多的学生在专业领域内英语的实际运用能力有限。但是现如今，无论是各类型企业还是科研机构，对同时具备良好的专业知识和高水平的英语应用能力的人才的需求非常大。可以说，作为高层次的人才，仅仅具备专业知识，而英语应用能力存在短板会极大地限制专业水平的进一步提高，降低国际交流与协作的效率，对职业生涯造成无法低估的伤害。高等教育应从多方面入手，努力培养有国际视野的“专业+英语”复合型人才，满足这一需求。双语教学作为一种与国际接轨的教学模式，一方面有利于提高学生的英语学习能力，另一方面可以更快速更全面地获取专业相关的科技进展，有利于提升学生的专业水平。而生物医学信息检索是一门关于信息获取、知识更新的课程，只有当学生具备良好的英语能力，才能更高效更全面地获取最前沿的信息，学习最先进的知识，更好地服务于生物医学行业。将双语教学应用于生物医学信息检索，是一个事半功倍的方法。①②笔者在生物医学信息检索的双语教学实践中，总结了一些方法与技巧，并对其潜在的问题提供相应的解决方案。

1方法与技巧

精选教材且及时调整课程难度

“工欲善其事，必先利其器”，双语教学的首要问题便是双语教材的选择，教材选择的好与坏，直接影响着教学效果的好坏。教育部高等教育司曾提出：“在有条件的高等学校的某些信息科学和技术课程中推动使用国外优秀教材的影印版进行英语或双语教学，以缩短我国与国际先进水平的差距，同时也有助于强化我国大学生的英语水平。”原版外文教材在内容上更具有前瞻性、专业的前沿知识也更加规范和优越，更利于学生接触到新知识，选择原版外文教材也是营造全英文环境的一个有利措施，可以高效率地学习专业词汇的使用、专业内容的表达。但是，到目前为止，我国的生物医学信息检索的双语教材选择比较少。而直接采用美国等发达国家的生物医学信息检索原版教材，其课程内容并不一致，而且由于国外教材是按照英文的思维方式编写的，对于学生来讲难度较大，会对学生造成很大的学习压力。综合以上原因，我们在授课中参考了国外的一部分原版教材以后，自编了适合学生全英文的教材和练习。该教材兼顾学生按教学大纲要求掌握专业知识和基本技能,重点强调与现行的生物医学前沿进展的联系。最后在教学实践过程中，根据学生的学习和掌握情况随时进行修改和调整。

多媒体教学结合上机实践

现代计算机和网络的普及大大减轻了双语教学中的困难。随着网络技术的发展和网络信息资源的大幅度增长，生物医学信息检索也更多地在网络上进行。为了配合这一现实的应用现状，我们在教学中采用了教师多媒体讲授和学生上机实践相结合的方式，旨在让学生们能摆脱纸上谈兵的桎梏，充分地将字面的知识固化为自己掌握的本领，能利用网络进行生物医学信息的检索。教师在教学中利用课件控制，对临场情况做出及时的响应调整教学策略和学习内容，以适应动态教学环境所带来的变化。在多媒体演示教学环境中，老师可将操作过程和所得到的结果展现在学生面前，让学生亲自动手操作，以使学生对知识的理解更加具体透彻。上机实践使得整个教学环境由静态向动态转变。这个方式一则是充分发挥学生的积极主动性，从老师“教”转化为学生“学”，二则有利于学生将理论学习和技能提升有机地结合在一起。这一方式在没有增加学时的情况下，本科生的生物医学信息检索课程的教学质量有了比较大的提升，得到学生的普遍好评。

小班教学增强师生交流

双语教学要考虑到学生之间的水平差异，采用小班教学的模式。我们在教学中发现双语教学的最大困难在于学生之间存在专业英语水平的差异，尤其是对于生源来源广泛的民族院校，这种情况尤其突出，教师如何平衡这种差异、并且及时调整教学的进度和难度是重中之重。而小班教学的方式能够保证信息的充分交流和师生的顺畅沟通，有利于增进学生对专业知识的理解和应用，也可以给授课老师及时反馈。小班教学可以营造一个良好的每个人都可以参与其中的双语氛围，获得更好的教学效果。

2问题与对策

加强专业英语学习

笔者在双语教学实践中发现，教学效果的好坏很大程度取决于学生自身的英文水平，尤其是专业英文水平。当学生的专业英文水平有限的'时候，会出现不能理解关键词的准确含义、无法阅读摘要的主要内容，进而不能获得所需要的信息。在这种情形之下，无论老师如何讲授信息检索的原理，介绍信息检索的方法，对于学生来讲，都会出现茫然不知所措的状态。比如说指定检索癌症相关信息，部分同学只知道cancer可以表示癌症，不知道还有tumor、carcinoma也可以表示癌症，并且词义在医学领域存在差异。再比如，在表述胃癌的时候，可以用stomachcancer，也可以用gastricCancer。针对这一情况，笔者在授课之初会详细讲解MeSH（MedicalSubjectHeadings），即由美国国家医学图书馆建立的一套完整详细的生物医学领域的主题词库。同时，笔者也建议先导课的专业课老师在授课的过程中，尽量采用全英文幻灯片展示，中英文对照学习的方式。上述措施可以有意识地帮助学生扩大专业词汇量和帮助学生理解专业描述，进而帮助学生克服双语教学中的最大障碍。这是从根本上解决双语教学对于学生来说较为困难的方式，也唯有真正具备良好的专业英语水平才可以从本质上掌握生物医学信息检索的方法，才能够满足今后的学习和工作的需求。另一方面，对于生物医学数据库的英文界面不熟悉才会增加学生学习的难度。笔者比较困惑的是，在上课之初，一部分同学不太理解starmenu的含义，对于全英文界面的数据库NCBI（NationalCenterforBiotechnologyInformation），ScienceDirect，Highwire，以及软件Endnote初次接触的时候更是如同看天书。这本身并不困难，但是会极大地增加学生的心理压力，所以这需要授课老师对界面进行详细的讲解和介绍，并给予学生足够的时间去熟悉界面，达到能够熟练掌握的水平，消除学生的畏难心理。

循序渐进

为了避免在学习过程中，学生出现习得性无助的情况，双语教学一定要采用循序渐进的方式进行。切忌一开始就加重学习任务加大学习难度，这样的结果是多数同学会跟不上老师的进度，产生严重的厌学心理，进而会完全放弃这门课程的学习。教师授课以前需要对学生的英文水平和专业覆盖面有一个大概的了解，和学生沟通交流他们的学习兴趣、需求和困难所在，并根据获取的信息结合教学大纲及时调整授课的内容、重点和难点。当学生第一次接触到该门课程的双语学习时，教师需利用其最初的新奇感和参与意识激发同学们的学习兴趣，从简到难的学习进度中，让同学们自主地参与到课程的学习中来，收获到成功的喜悦是进一步深入学习的强大动力。教师在课堂讲授中要循序渐进地增加英语表达的比例，在遇到部分专业词汇时需要做详尽的中文解释；在遇到英文表意较为复杂的情况也需要辅以中文指导，全场和学生保持沟通顺畅，把握教学难点和内容。双语授课不能单纯为了英文表达而表达，忽视了学生在课堂上专业水平的提升。同时也可以让学生自发组成学习小组，让英语基础比较好的同学带动其他同学的学习，同学之间互相促进互相合作，形成一个良好的互动氛围，从教师的“教”彻底转变为学生的“学”，让所有的同学参与到这个过程中来，避免个别同学落后于集体学习进度的情况。

3结语

双语医学信息检索这门课程既有利于学生英语应用能力的提高，同时也有利于学生专业知识的扩展和深化，可以极大地增强学生在今后的深造和就业中的竞争力。虽然这门课中还存在很多问题有待我们做进一步思考与改进，但是只要我们勇于拓新，这门课一定会发挥其作用、展现其价值。随着高等教育中教育理念的更新，双语教学在医学信息检索教学课中的运用会真正服务于学生，服务于社会。

索引序列
图书信息检索技术的论文
论信息检索技术的重要性论文
信息检索论文的检索方法
信息检索与学术写作论文
信息检索课论文
返回顶部

图书信息检索技术的论文