信息存储与检索论文

5个回答默认排序

默认排序

按时间排序

感觉不会再

已采纳

网络信息检索方法与应用这个原创。联系看我资料

224 评论 1小时前发布

修普诺斯0907

文献信息检索或情报检索，是指将文献信息按一定的方式组织和储存起来，并能根据用户的需要取出所需特定信息的整个过程。它的全名为信息存储与检索。通常所说的信息查询或检索只是名称的后一半，或是"狭义"的信息检索。文献检索分为数据检索：以文献中的数据为对象的一种检索。如某公式、某化学分子式等。事实检索：以文献中的事实为对象，检索某一事物发生的时间、地点或过程文献检索：以文献为对象，查找某个课题的有关文献的一种检索。用检索标识与文献的存储标识相比，如果能够取得一致，就叫"匹配"，就可得到"命中文献"。文献检索语言文献检索语言是一种人工语言，用于各种检索工具的编制和使用、并为检索系统提供一种统一的、作为基准的、用于信息交流的一种符号化或语词化的专用语言。因其使用的场合不同，检索语言也有不同的叫法。例如在存储文献的过程中用来标引文献，叫标引语言；用来索引文献则叫索引语言；在检索文献过程中则为检索语言。检索语言按原理可分为3大类：(1)、分类语言它是将表达文献信息内容和检索课题的大量概念，按其所属的学科性质进行分类和排列，成为基本反映通常科学知识分类体系的逻辑系统，并用号码（分类号）来表示概念及其在系统中的位置，甚至还表示概念与概念之间关系的检索语言。《中国图书馆图书分类法》是我国图书分类法的基础，中图法把一切知识门类按"五分法"分为马列、毛泽东思想；哲学；社会科学；自然科学；综合性图书这五大部类。在此基础上建成由22个大类组成的体系系列。(2)、主题语言是指经过控制的，表达文献信息内容的语词。主题词需规范，主题词表是主题词语言的体现，词表中的词作为文献内容的标识和查找文献的依据。(3)、关键词语言指从文献内容中抽出来的关键的词，这些词作为文献内容的标识和查找目录索引的依据关键词不需要规范化，也不需要关键词表作为标引和查找图书资料的工具。 (4)、自然语言指文献中出现的任意词。文献检索途径（1）、著者途径许多检索系统备有著者索引、机构（机构著者或著者所在机构）索引，专利文献检索系统有专利权人索引，利用这些索引从著者、编者、译者、专利权人的姓名或机关团体名称字顺进行检索的途径统称为著者途径。（2）、题名包括书名、刊名、篇名等途径。一些检索系统中提供按题名字顺检索的途径，如书名目录和刊名目录。（3）、分类途径按学科分类体系来检索文献。这一途径是以知识体系为中心分类排检的，因此，比较能体现学科系统性，反映学科与事物的隶属、派生与平行的关系，便于我们从学科所属范围来查找文献资料，并且可以起"触类旁通"的作用。从分类途经检索文献资料，主要是利用分类目录和分类索引。（4）、主题途径通过反映文献资料内容的主题词来检索文献。由于主题法能集中反映一个主题的各方面文献资料，因而便于读者对某一问题、某一事物和对象作全面系统的专题性研究。我们通过主题目录或索引，即可查到同一主题的各方面文献资料。（5）、引文途径文献所附参考文献或引用文献，是文献的外表特征之一。利用这种引文而编制的索引系统，称为引文索引系统，它提供从被引论文去检索引用论文的一种途径，称为引文途径。（6）、序号途径有些文献有特定的序号，如专利号、报告号、合同号、标准号、国际标准书号和刊号等。文献序号对于识别一定的文献，具有明确、简短、唯一性特点。依此编成的各种序号索引可以提供按序号自身顺序检索文献信息的途径。（7）、代码途径利用事物的某种代码编成的索引，如分子式索引、环系索引等，可以从特定代码顺序进行检索。（8）、专门项目途径从文献信息所包含的或有关的名词术语、地名、人名、机构名、商品名、生物属名、年代等的特定顺序进行检索，可以解决某些特别的问题。文献检索方法（1）、直接法又称常用法，是指直接利用检索系统（工具）检索文献信息的方法。它又分为顺查法、倒查法和抽查法。（2）、追溯法是指不利用一般的检索系统，而是利用文献后面所列的参考文献，逐一追查原文（被引用文献），然后再从这些原文后所列的参考文献目录逐一扩大文献信息范围，一环扣一环地追查下去的方法。它可以像滚雪球一样，依据文献间的引用关系，获得更好的检索结果。（3）、循环法又称分段法或综合法。它是分期分交替使用直接法和追溯法，以期取长补短，相互配合，获得更好的检索结果。文献检索步骤文献检索是一项实践性很强的活动，它要求我们善于思考，并通过经常性的实践，逐步掌握文献检索的规律，从而迅速、准确地获得所需文献。一般来说，文献检索可分为以下步骤：（1）明确查找目的与要求。（2）选择检索工具（3）确定检索途径和方法（4）根据文献线索，查阅原始文献手工检索工具指印刷型检索工具，主要有以下类型：(1)、目录、索引、文摘目录，也称书目。它是著录一批相关图书或其它类型的出版物，并按一定次序编排而成的一种检索工具。索引，是记录一批或一种图书、报刊等所载的文章篇名、著者、主题、人名、地名、名词术语等，并标明出处，按一定排检方法组织起来的一种检索工具。索引不同于目录，它是对出版物（书、报、刊等）内的文献单元、知识单元、内容事项等的揭示，并注明出处，方便进行细致深入的检索。文摘，是以提供文献内容梗概为目的，不加评论和补充解释，简明、确切在记述文献重要内容的短文。汇集大量文献的文摘，并配上相应的文献题录，按一定的方法编排而成的检索工具，称为文摘型检索工具，简称为文摘。(2)、百科全书参考工具书之王。它是概述人类一切门类或某一门类知识的完备工具书，是知识的总汇。它是对人类已有知识进行汇集、浓缩并使其条理化的产物。百科全书一般按条目（词条）字顺编排，另附有相应的索引，可供迅速查检。(3)、年鉴按年度系统汇集一定范围内的重大事件、新进展、新知识和新资料，供读者查阅的工具书。它按年度连续出版，所收内容一般以当年为限。它可用来查阅特定领域在当年发生的事件、进展、成果、活动、会议、人物、机构、统计资料、重要文件或文献等方面的信息。(4)、手册名录手册，是汇集经常需要查考的文献、资料、信息及有关专业知识的工具书。名录，是提供有关专名（人名、地名、机构名等）的简明信息的工具书。(5)、词典（字典）词典是最常用的一类工具书。分为语言性词典（字典）和知识性词典。(6)、表谱、图录表谱，采用图表、谱系形式编写的工具书，大多按时间顺序编排。主要用于查检时间、历史事件、人物信息等。图录,包括地图和图录两类。(7)、类书、政书选择性阅读：一般根据文章的摘要、主题词（关键词）等进行选择，并依照自己的需求借阅或下载阅读。。。欢迎采纳

286 评论 4小时前发布

映雪堂明

问题一：请问谁知道检索式怎么写啊？ TI是英文title:题名的意思.如你所写的是:包括 KEY是关键词其实我们还可用一些简单的方法: 1.文献类型选择在文献查询页面，“文献类型选择”列出了本系统中可提供用户查询的各类型文献数据库。这是一个必选项目，可以单选，也可以多选或全选。系统具有跨库检索功能，可同时在多个数据库中查寻文献。 2.查询范围选择这是一个单选项目。可在作者、标题、文摘、关键词、分类号或全文检索等项目中任选一项，确定系统对数据库中相应字段进行检索。其中“全文检索”选项可对数据库中的所有字段进行查找。 3.查询年限选择用于选择欲查文献的出版年份。所选择的年份相当于当年的1月1日至12月31日，默认时间为全部年。 4.输入检索词可以输入与查询主题密切相关的单个词进行检索，也可以通过 “and”（与）、“or ”(或)、“not”（非）进行组配，构成比较复杂的逻辑检索式。例如，欲查找有关计算机辅助设计的论文，可以用中文词组“计算机辅助设计”或英文缩写“CAD”来表达，通过“或”的关系连缀起来，可以构成这样一个检索式：计算机辅助设计 or CAD 输入完检索条件后，按“查询”按钮，就可查询到相关文献的题录列表。下面的方法比较专业,不适合大多数的的,不建意使用! 键入一个或多个检索词(可以为任意词)，如protein disulfide isomerase ,也可以输入缩略名如pdi等；输入多个词时，可自动识别成词组；但词数太多时，则以逻辑与的方式识别，如可以将protein disulfide isomerase识别成一个词，也有可能将其识别成“protein AND disulfide AND isomerase”尤其是出现数字等符号时不易识别成词组；对不能识别检索的词组，需加引号强调，如键入： “Insight II” 以文献作者方式检索，作者名的输入格式为：姓+名如输入：Free *** an DJ ，其中“姓”为全称，“名”则为首字母简写形式（ “名”可以省略)；键入的杂志名称可以是全名，也可以是杂志名的MedLine缩写格式或ISSN杂志号(见期刊浏览)。检索时可在词尾加“*”号检索所有具有同样词头的词。如键入：biolog* 可查得biology或biological等词。也可将多个词以词组形式查询，对不能识别检索的词组，需加引号强调，如键入： “Insight II” 将识别成词组“Insight II”以方式查询，若键入： Insight II 则有可能分开识别成“Insight” 和“II”两个词，以逻辑与“Insight AND II”的方式进行检索。词与词间可用AND、OR或NOT逻辑进行连词检索。键入检索词后，别忘了选择检索年限(30天，10年不等)及选择文献的页面显示数目。按Enter回车键或鼠标击话界面中的“Search”按钮可得到查询文献提要(document summary page)。 2.高级检索方式 (Advanced Search) 与基本检索方式不同的是增加了检索范围(search fields).和检索模式(search mode)的选择框。在检索范围 Search Fields 选择条框中，包含了 All fields[ALL],指所有检索范围； Affiliation[AD，AFFL]，指联系地址，......>> 问题二：写出下列课题的检索词和检索式 15分 1.各国财政政策对国民经济的影响研究检索词：财政政策耿iscal Policy 国民经济 National Economy 检索式：（财政政策*国民经济）*影响 (Fiscal Policy * National Economy) * Effect 2.制度经济学范畴下的职业经理人问题检索词：制度经济学Institutional Economics 职业经理人 Professional Manager 检索式：（制度经济学*职业经理人）*问题（Institutional Economics * Professional Manager）*Problem 3.世界遗产地旅游发展研究综述检索词：世界遗产地World Heritage Site 旅游发展 Touri *** Development 检索式：（世界+全球）*（遗产地*旅游发展）*研究综述 A Research Summary on (World +the Whole World) * (Heritage Site*Touri *** Development 问题三：怎样写检索式也有研究者在以上分类基础上再加上零次文献，它是指未经过任何加工的原始文献，如实验记录、手稿、原始录音、原始录像、谈话记录等。零次文献在原始文献的保存、原始数据的核对、原始构思的核定(权利人)等方面有着重要的作用。文献信息检索或情报检索，是指将文献信息按一定的方式组织和储存起来，并能根据用户的需要取出所需特定信息的整个过程。它的全名为信息存储与检索。通常所说的信息查询或检索只是名称的后一半，或是狭义的信息检索。文献检索分为数据检索：以文献中的数据为对象的一种检索。如某公式、某化学分子式等。事实检索：以文献中的事实为对象，检索某一事物发生的时间、地点或过程文献检索：以文献为对象，查找某个课题的有关文献的一种检索。问题四：请问：文献检索，检索式怎么写？求大神解答研究者类基础再加零文献指未经任何加工原始文献实验记录、手稿、原始录音、原始录像、谈记录等零文献原始文献保存、原始数据核、原始构思核定(权利)等面着重要作用文献信息检索或情报检索指文献信息按定式组织储存起并能根据用户需要取所需特定信息整程全名信息存储与检索通所说信息查询或检索名称半或狭义信息检索文献检索数据检索：文献数据象种检索某公式、某化式等事实检索：文献事实象检索某事物发间、点或程文献检索：文献象查找某课题关文献种检问题五：文献检索检索式的问题看到前面的加号没有？问题六：检索式怎么写 5分不同数据库的专业检索式的编写要求和表示方式不同，你可以查看相应数据库的专业检索的帮助信息，相信你一定能学会编写需要的检索式。例如，在中国知网，选择专业检索方式，在页面下方就有帮助说明与示例说明，见下图。

125 评论 9小时前发布

毓毓baby

一般格式和顺序：

1、封面：（由文印中心统一制作）。

2、中文摘要：中文摘要，约300字以内。

内容应包括工作目的、研究方法、成果和结论，要突出本论文的创造性成果，语言力求精炼。为了便于文献检索，应在本页下方另起一行注明论文的关键词（3-5个）。

广义的检索包括信息的存储和检索两个过程(Storage and Retrieval)。信息存储是将大量无序的信息集中起来，根据信息源的外表特征和内容特征，经过整理、分类、浓缩、标引等处理，使其系统化、有序化。

扩展资料：

按照检索结果内容划分为以下三种：

（1）数据检索：以文献中的数据为对象的一种检索。如查找某种材料的电阻，某种金属的熔点；

（2）事实检索：以文献中的事实为对象，检索某一事件发生的时间，地点，或过程；如查找鲁迅生于某年；

（3）文献检索：以文献原文为检索对象的一种检索。

参考资料来源：百度百科-文献检索

188 评论 12小时前发布

妮儿1212J

我给你找了一篇，摘要如下：随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本，贴在下面：网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样，包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。.信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播;“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率;再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户;触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之!2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁’时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询;二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[’“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔’3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得;其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检;第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词……………………………………太长发不全希望对你有用实在不行联系我（给我留言）我发给你邮箱。

287 评论 12小时前发布

信息存储与检索论文

5个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

5个回答默认排序

默认排序

按时间排序