欢迎来到学术参考网

浅谈搜索引擎的原理与发展

发布时间:2015-12-17 11:05

摘 要:根据技术实现不同,将搜索引擎划分为Robot搜索引擎、目录搜索引擎和元搜索引擎类,并从搜索引擎的一般原理,对这三种搜索引擎的工作原理进行比较分析,预测了搜索引擎的几大发展趋势。

关键词:搜索引擎;工作原理;发展趋势

1.搜索引擎概述

    搜索引擎是一种在互联网上采取一定的策略搜集、发现信息,并对信息进行理解、提取、组织和处理,并为用户提供检索服务的搜索工具。根据信息搜集技术的不同,可以将搜索引擎分为三类,即:基于Robot的搜索引擎、目录搜索引擎、元搜索引擎。

2.搜索引擎的原理与比较分析

  本文从搜索引擎信息搜集、信息整理、用户查询三个方面分别对基于Robot的搜索引擎、目录搜索引擎、元搜索引擎这三种搜索引擎的工作原理进行分析与比较。

2.1基于Robot的搜索引擎

  Robot 有时也称为蜘蛛(Spider)、漫游者(W anderer)、爬虫(Craw ler)和蠕虫(Worm)等, 是一种能够利用W eb 文档内的超级链接递归地访问新文档的软件程序。基于Rotot的系统结构如图1所示。

                图1 基于Robot搜索引擎的系统结构图

  通过存取子系统,Robot能访问一个或一组URL网站,并采用一定的策略,对网站内的链接进行递归访问。Robot采用的搜索策略,即IP地址搜索、深度优先搜索、广度优先搜索以及深度与广度结合搜索。

 (1)IP地址搜索策略:先赋予Robot一个起始的IP地址,然后根据IP地址递增的方式搜索本IP地址段后的每一个WWW地址中的文档,它完全各文档中指向其它Web站点的超级连接地址。

 (2)深度优先搜索策略:从起始结点出点,一直搜索到那些不包含任何超级链接的文件为止。这算是一个完整的链,然后再返回某一文档,再继续选择该文档的其他链接。结束的标志是不再有其他超级连接可以搜索。

 (3)广度优先搜索策略:先搜索完一个Web页面中所有的超级链接,然后再继续下一层的搜索,直到最底层为止。

 (4)深度—广度结合搜索策略:利用深度与广度搜索的优点来弥补对方的缺点。它可以沿着广泛分布于网络上的超级链接漫游,每当它到达一个新网站,能对该网站的后续超级链接(即引用该网站的超级链接)进行统计,并对该网站进行检索,且将检索结果返回给用户,接着为所获得的URLs运行搜索引擎程序,重复上述步骤。

  搜索引擎完成信息搜集任务后,接下来就是进行信息整理,建立索引数据库。这时就需要调用到分析子系统和资源索引数据库。分析子系统根据搜集到的网上数据的特点,按照特定的算法,对已搜集获得的网页各超链信息进行分析,从中提取和用户检索相关的网页描述信息;而资源索引数据库就是用于存放已分析好的网页的数据中抽出索引项,建立起来的索引。分析子系统与资源索引数据库是内容基于Robot的搜索引擎的核心技术。 

2.2目录式搜索引擎(Directory)

   目录式搜索引擎,又叫主题式搜索引擎,是通过机器或人工搜集信息,并对网页的内容根据一定的分类体系人工归类整理,为用户提供可查询与检索的等级式主题目录。其系统结构如下图:

                       图2 目录搜索引擎的系统结构图

  系统雇用的大量编辑,会进行广泛的网站或网页搜集。这些编辑在访问某个 WEB 站点时,会对该站点作适当的描述,并根据站点的内容和性质将其归类,并归入预先的类别中,由此便建立了目录数据库。用户根据自己需要,利用检索子系统,采用关键词或分类目录,逐层查找网页。

  

2.3元搜索引擎(Meta Search Engine)

  将用户的查询请求同时向多个预先选定的独立搜索引擎递交,并将返回的结果进行重复排除,重新排序等处理后作为自己的结果返回给用户的信息检索系统,又叫搜索引擎之上的搜索引擎。它将现有的多个搜索引擎看成一个整体,为用户提供一个统一的查询界面,用户的查询请求则根据元搜索引擎根据知识库中的信息,转换为多个搜索引擎所能识别的格式,然后分别发送给各个搜索引擎,由这些搜索引擎完成实际的检索,最后元搜索引擎再把从各个搜索引擎返回的结果收集起来,进行比较分析,合并冗余信息,去除重复信息,以一定格式返回给用户。它主要由检索请求预处理、检索接口代理及检索结果处理等三部分构成。其系统结构图如下图。

                图3 元搜索引擎的系统结构图

  现今,元搜索引擎特别是英文元搜索引擎发展较快,如:AskJeeves、Cyber411、Digisearch、DogPileHighway6l、Islcuth、等都是元搜索引擎,其功能强大,操作方便,结果清晰。

  由于大部分搜索引擎互不兼容,相互操作性差,而且用户接口不一致,使得检索式处理非常复杂。如果查询请求包含超过一个或两个词或更复杂的逻辑,位于查询请求中较后面的词和逻辑很可能被忽略。其次,作为一个元搜索引擎,如何能够将获取的信息按照相关度进行排序也是非常复杂的问题:因为不同搜索引擎在本身查询结果排序过程中采用的算法相差很大。而元搜索引擎必须结合这些使用不同排序算法产生的结果, 并以统一的结果形式返回给用户,如果仅按各搜索引擎自己的结果序列顺序显示输出,结果很可能有重复。这些都是在研究元搜索引擎中遇到的难点。

2.4比较分析

  信息搜集:Robot搜索引擎主要是利用Robot搜索引擎自动搜集海量的信息并编制索引摘要,数据来源大而丰富,能保证信息的全面性和及时性。而目录搜索引擎则是依靠人工进行广泛地搜集网站,数据范围显然没有Robot搜索引擎广,但能较好地保证搜集数据的准确性。由于元搜索引擎没有自己独立的数据存取子系统,信息搜集取决于其利用的独立搜索引擎,当然,这些独立搜索引擎,很有可能不仅仅是基于Robot的搜索引擎,也有目录搜索引擎。这样一来,元搜索引擎在信息搜集方面具有这两种搜索引擎所具有的优点,信息来源广,数据较为准确。

  信息整理:Robot搜索引擎是利用Robot对搜集到的网站进行自动加工整理的,在信息加工、更新方面有较好的优势。相比之下,依靠人工方式进行信息加工、整理的目录搜索引擎,则存在人工归类速度缓慢,网站信息更新不及时等缺陷。

  用户查询:不同的信息搜集与整理方式,使得Robot搜索引擎与目录搜索引擎在为用户提供检索查询服务方面各有特色。Robot搜索引擎能保证信息的全面性和及时性,增加查全率,但查询的准确度较低,用户很难通过检索,真正获得自己所需的结果;目录搜索引擎采取人工方式进行网站描述的方式,在一定程度上确保了查准率,但由于依靠人工 搜索到信息范围有限,很多有用或相关的信息可能没被搜索到,从而在一定程度上牺牲了查全率。而对这两种搜索引擎的思想进行整合的元搜索引擎,则在一定程度上具有Robot机器搜索引擎查全率高及目录搜索引擎查准率高的优点。

3.搜索引擎的发展趋势

3.1智能化检索

  智能检索是基于自然语言的检索形式, 具有自然语言理解技术的搜索引擎可以正确有效地切分汉字 , 识别用户检索词中的错别字,同用户使用自然语言“交谈”,并能深刻理解和挖掘用户深层次的意图。搜索结果在“告知”用户之前 , 能识别出重复信息、无效链接、无法打开的网页、作弊网页等没有价值的垃圾信息,并进行筛选,从而提高查询结果的准确性,越来越多的搜索引擎正在采用智能化查询检索功能。例如,Infoseek可采用短语检索、字段检索、同义语检索等,这一点与传统的基于关键字搜索的检索方式截然不同。人们把这种搜索方式称为“智能检索”。

3.2专业化检索

  信息提供具有针对性,专业性的搜索引擎,将会受到目标用户的极大欢迎。包括:

1)垂直主题搜索引擎。具有高度的目标化、专业化和很高的针对性;

2)非 www信息的搜索。提供 FTP等类信息的检索;

3)提供多媒体搜索。多媒体检索主要包括声音、图像的检索。

3.3多媒体检索

  多媒体资源因其声文并茂而受到广大检索用户的青睐,因此以提供声音、图像、图表、音频、视频和动画等丰富的多媒体资源检索服务的搜索引擎,尽管目前仍存在多媒体资源描述难度大的问题,但是随着多媒体资源存取技术的发展,必将会在围绕为用户提供快速、准确多媒体资源方面有所突破。

3.4多语种化检索

  随着网络信息资源的全球化,作为网络检索工具的搜索引擎要顺应这一潮流,向全球化 、国际化发展,搜索引擎为了扩大影响,改变网上的文字信息为英文所垄断的局面,也应该面向支持多语种发展的方向。例如,FAST在欧洲、美洲、亚洲的23个国家设立了国际站点,使其服务遍及世界各地。AltaVista不仅提供25种语种的检索,还提供5种拉丁语系的语言与英语的互译功能。而著名的Google,到目前为止,已能支持118种语言检索。

上一篇:Visual FoxPro下的图书管理系统开发

下一篇:浅谈网络维护技术