以搜索引擎为主题的论文

发布时间：2023-12-08 10:12:59

以搜索引擎为主题的论文

我给你找了一篇，摘要如下:随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究，并对网络信息检索的发展趋势进行了预测，旨在寻找提高网络信息检索的手段和方法的有效途径，并最终提高网络信息的检索效果，使得网络信息资源得到充分有效地利用。全文主要包括六个部分，第一部分为网络信息检索述评，主要是阐述了网络信息检索所涉及到的有关概念，如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等，旨在弄清网络信息检索的技术支撑，为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述，主要从其检索机制入手，分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括，并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限，主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本，贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展，网上信息资源也以指数形式增加，网络信息资源作为一种新型的信息资源，发挥着越来越重要的作用，其内容几乎无所不包，涉及政治、经济、文化、科学、娱乐等各个方面；其媒体形式多种多样，包括文本、图形、图像、声音、视频等；其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术，所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程，也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中，通过人工查找索引找到对应的文献索引号再获取文献原文；②联机信息检索。这其中也存在一个发展过程，由检索结果来看，从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文；由检索方法来看，从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中，全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速，成为深受人们关注的一种非常有效的信息检索技术，它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br，singsystelns)。只要能够进入hitemct就能够通过浏览器，利用HTTP协议提供的WV乃万服务，浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点，它是以一定的技术和策略在intemet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以认倪b形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前，得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式，其中以查全率和查准率最为重要。现代信息科学技术的发展，为人们提供了多种多样的信息获取和传送方法及技术，从“信源”与“用户”的关系来看，可分为两种模式:“信息推送”模式(InformationPush)，由“信源”主动将信息推送给“用户”，如电台广播；“信息拉取”模式(InformationPull)，由“用户”主动从“信源”中拉取信息，如查询数据库。2.2.1信息推送技术“推”模式网络信息服务，是基于网络环境下的一种新的服务形式，即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术，是因为借助该技术使网络信息服务具有主动性，不仅可以直接把用户感兴趣的信息推送给用户，而且可有效地利用网络资源，提高网络吞吐率；再者，Push技术还允许用户与提供信息的服务器之间透明地进行通信，极大地方便了用户。所谓Push技术，又称“推送”技术、Web广播(Webeasting)技术，实质上是一种软件，这种软件可以根据用户定义的准则，自动搜集用户最可能发生兴趣的信息，然后在适当的时候，将其传递至用户指定的“地点”。因而从技术上看，“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件，该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息)，还能够主动从网上搜寻信息，并经过筛选、分类、排序，然后按照每个用户的特定要求，主动推送给用户141。(l)信息推送方式。信息推送方式分两类，即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式，它将某些页面定义为浏览器中的频道，用户可像选择电视频道那样接受有兴趣的网播信息；邮件式推送，用电子邮件方式主动将所推送信息发布给各用户，如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户，如某企业、某组织、某个人的网页；专用式推送。采用专门的信息发送和接收软件，信源将信息推送给专门用户，如机密的点对点通信。智能推送方式有:操作式推送(客户推送式)，由客户数据操作启动信息推送。当某客户对数据进行操作时，把修改后的新数据存入数据库后，即启动信息推送过程，将新数据推送给其他客户；触发式推送(服务器推送式)，由ll硕士学位论文MASTER，5THESIS⑧数据库中的触发器启动信息推送过程，将新数据推送给其他客户，当数据发生变化，如出现增加(Insert)、删除(Delete)、修改(update)操作时，触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而，主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说，Push技术可以针对用户的特定信息需求进行检索、加工和推送，并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至，Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索，收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性，控制搜索的深度，过滤掉不必要的信息，将认飞b站点的资源列表及其更新状态配以客户代理完成。因而，网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动，有效地利用网络带宽，比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要，灵活地设置连接时间，通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现，不仅需要信息技术设备，而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段，“推”技术还存在很大的缺陷，比如:不能确保信息发送，没有状态跟踪，缺乏群组管理功能等等。因此，国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制)，摒弃了Push的诸多缺点之，2硕士学位论文MASTER，5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户，同时保持连续性的用户资料，随时可以知道谁收到了信息，信息是否为该用户定制，用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术，如数据库查询，是由用户主动查询数据库，从数据库中拉取所需信息。其主要优点是:针对性好，用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上，用户面对的不止是一个数据库，而是拥有海量信息的hitemet环境，因此，各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点，在实际中常常是将两者的结合起来，常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息)，再有针对性地拉取所需的信息。这样，便于用户注意信息变化的新情况和趋势，从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息，然后根据用户的兴趣，再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中，允许用户随时中断、定格在所感兴趣的网页上，作进一步的搜索，主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中，根据用户输入的关键词，信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务，又可以减轻网络的负担，并便于扩大用户范围[8]。因此，信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展，W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时，又使得人类的信息环境更加复杂，人硕士学位论文MASTER，5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决，相反，随着信息技术的发展，信息量的激增，造成了个人实际所需信息量与研触b上的海量信息之间的矛盾，因而也就造成了个人利用信息的困难。在这种情况下，虽然出现了叭范b环境下的专门检索工具，但是由于搜索引擎是由传统检索技术发展而来，在当前用户要求不断提高的情况下，传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源，W七b挖掘作为新的知识挖掘的手段，为Web信息的利用提出了新的解决方案叨。2.3，1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料，从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段，它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识，以实现Web资源的自动检索，提高web数据的利用效率。随着Intemet的进一步延伸，Web数据越来越庞大，种类越来越繁多，数据的形式既有文本数据信息，也有图像、声音、视频等多媒体数据信息，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而，对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度，主要研究如何处理文本格式和超级链接文档，这些数据是非结构化或半结构化的。处理非结构化数据时，一般采用词集方法，用一组组词条来表示非结构化的文本，先用信息评价技术对文本进行预处理，然后采取相应的模型进行表示。另外，还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时，可以利用一些相关算法给超级链接分类，寻求认七b页面关系，抽取规则。同处理非结构化数据相比，由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构，使得表示半结构化数据的方法更加丰富。二是从数据库的角度，主要处理结构化的W匕b数据库，也就是超级链接14⑧蕊誉蕊文档，数据多采用带权图或者对象嵌入模型(OME)，或者关系数据库表示，应用一定的算法，寻找出网站页面之间的内在联系，其主要目的是推导出Web站点结构或者把W匕b变成一个数据库，以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化，研究认触b上的高级查询语言，使其不局限于关键字查询；二是信息的集成与抽取，把每个W七b站点及其包装程序看成是一个认范b数据源，通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成；三是叭几b站点的创建与重构，通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘，主要指的是通过对W七b文档的分析，从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系，W七b结构挖掘关注的则是网站中的超级链接结构之间的关系，找到隐藏在一个个页面之后的链接结构模型，可以用这个模型对W七b页面重新分类，也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据，页内结构可以用超文本标记语言等表示成树型结构，此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系，如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类，可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息，通过研究W亡b页面内部结构，可寻找出与用户选定的页面集合信息相关的其它页面信息模式，以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析，从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式，它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点，使得在认七b网上进行内容挖掘比较困难，它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构，当信息用户访问web站点时，与访问相关的页面、时间、用户ro等信息，日志中都作了相应的记录，因而对其进行信息l5硕士学位论文MASTER，5THESIS⑥挖掘是可行的，也是有意义的。在技术实践过程中，一般先把日志中的数据映射成诸种关系信息，并对其进行预处理，包括清除与挖掘不相关的信息等。为了提高性能，目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度，行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程，由于用传统的信息检索技术对W己b文档的处理不够深入，因此，可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善，具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息，然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息，就可以对W七b网页的信息有大致的了解，决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别，利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围，大大提高查准率。目前，己经出现了很多文本分类技术，如TFIFF算法等，由于文本挖掘与搜索引擎所处理的文本几乎完全一样，所以可以直接将文本分类技术应用于搜索引擎的自动分类之中，通过对大量页面自动、快速、有效的分类，来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反，文本聚类指的是将文档集合中的文档分为更小的簇，要求同一簇内的文档之间的相似性尽可能大，而簇与簇之间的关系尽可能小，这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别，从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比，它的分类更加迅速、客观。同时，文本聚类可与文本分类技术相结合，使得信息处理更加方便。可以对检索结果进行分类，并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构，一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理，所以搜索引擎一般不处理这些信16硕士学位论文MASTER，S竹正515⑧息，而是将叭触b页面作为平面机构的文本进行处理。但是，在从触b结构挖掘中，通过对研触b文档组织结构的挖掘，搜索引擎可以进一步扩展搜索引擎的检索能力，改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容，通过研触b行为挖掘，不仅可以发现多数用户潜在共同的行为模式，而且还可以发现单个用户的个性化行为，对这些模式进行研究，可以更好地对搜索引擎的检索效果进行反馈，以便进一步改进搜索策略，提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示，都不能完全解决W七b数据的非结构性问题，特别是汉语句子格式繁多，虚词、实词没有绝对的界限，切分词难度大，这些是造成无法对数据进行完全自动标引的根本性问题，因此，从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储，并最终实现智能化、自动化的数据表示和标引，以供搜索之用。通常数据的表示和数据的利用形式是相互关联的，因此，设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引，这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展，网站的内容也越来越丰富，结构也越来越庞杂，用有向图表示巨型网站链接结构将不能满足数据处理的需要，需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流，那么，对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等，不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3)，eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性，客户端、代理服务器端缓存的存在，使用户访问日志分别存在于服务器、代理服务器和客户端，因此，从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理，形成一个个用户一次的访问期间。通常来讲，对于静态W七b网站，服务器端的日志容易取得，客户端和代l7理服务器用户访问日志不容易取得；其次，由于一个完整的W匕b是由一个个图片和框架页面组成的，而用户访问服务器也有并发性，在确定用户访问内容时，必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外，由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的，在处理海量Web用户访问日志中也需要重新设计算法结构〔41。2.4信息过滤技术hitemet开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题；第二，目前大多数据搜索工具的检索范围是综合性的，它们的Robots尽可能地把各种网页抓回来，经过简单加工后存放在数据库中备检；第三，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视，它的目的就是让搜索引擎具有更多的“智力”，让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术，因此它仍依托于某一信息检索模型，不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中，它以文献中是否包含关键词来作为取舍标准，因此，它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时，用户提交关键词。

什么c语言？这个问题说难不难，说易不易。粗浅的c语言一般可以在中国中学生联盟网技术论坛上拷贝一份，里面有一些可以作参考。

1、抓取网页每个独立的搜索引擎都有自己的网页抓取程序（spider）。Spider顺着网页中的超链接，连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。2、处理网页搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中，最重要的就是提取关键词，建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。3、提供检索服务用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。全文搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。由于近年来搜索引擎索引规则发生了很大变化，主动提交网址并不保证你的网站能进入搜索引擎数据库，因此目前最好的办法是多获得一些外部链接，让搜索引擎有更多机会找到你并自动将你的网站收录。当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法——通常根据网页中关键词的匹配程度，出现的位置/频次，链接质量等——计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。编辑本段目录索引与全文搜索引擎相比，目录索引有许多不同之处。首先，搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功。而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引，登录更是困难。此外，在登录搜索引擎时，我们一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录（Directory）。最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户的角度看，我们拥有更多的自主权；而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。更有甚者，如果工作人员认为你提交网站的目录、网站信息不合适，他可以随时对其进行调整，当然事先是不会和你商量的。目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找。如以关键词搜索，返回的结果跟搜索引擎一样，也是根据信息关联程度排列网站，只不过其中人为因素要多一些。如果按分层目录查找，某一目录中网站的排名则是由标题字母的先后顺序决定（也有例外）。目前，搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索，如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围（注）。在默认搜索模式下，一些目录类搜索引擎首先返回的是自己目录中匹配的网站，如国内搜狐、新浪、网易等；而另外一些则默认的是网页搜索，如Yahoo。

摘要网络中的资源非常丰富，但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本论文首先详细介绍了基于英特网的搜索引擎的系统结构，然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术，本人还亲自实现了一个自己的Java搜索引擎——新闻搜索引擎。新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索，并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明，图文并茂、易于理解。关键字：搜索引擎，网络机器人，Lucene，中文分词，JavaCC AbstractThe resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the internet in detail, and then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself in Java.The news search engine is explained and searched according to hyperlink from a appointed web page, then indexes every searched information and adds it to the index database. Then after receiving the customers' requests from the web server, it soon searches the right news form the index engine,In the chapter of introducing search engine, it is not only elaborating the core technology, but also combine with the modern code, pictures included, easy to understand. Key Words：Search Engine, Spider, Lucene, Phrase Query, JavaCC 目录第1章引言··· 11.1 选题背景：··· 11.2 现实意义··· 1第2章搜索引擎的结构··· 32.1 系统概述··· 32.2 搜索引擎的构成··· 32.2.1 网络机器人··· 32.2.2 索引与搜索··· 32.2.3 Web服务器··· 32.3 搜索引擎的主要指标及分析··· 42.4 小节··· 4第3章网络机器人··· 53.1 什么是网络机器人··· 53.2 网络机器人的结构分析··· 53.2.1 如何解析HTML· 53.2.2 该类几种重要的方法。··· 63.2.3 Spider程序结构··· 63.2.4 如何构造Spider程序··· 73.2.5 如何提高程序性能··· 83.2.6 网络机器人的代码分析··· 93.3 小节··· 10第4章基于Lucene的索引与搜索··· 114.1 什么是全文检索与全文检索系统？··· 114.2 什么是Lucene全文检索··· 124.3 Lucene的系统结构分析··· 134.3.1 系统结构组织··· 134.3.2 数据流分析··· 144.4 Lucene索引构建逻辑模块分析··· 154.4.1 绪论··· 154.4.2 对象体系与UML图··· 164.4.3 Lucene的包结构··· 204.4.4 Lucene的主要逻辑图··· 214.4.5 对Lucene包的小结··· 224.5 Lucene查询逻辑··· 224.5.1 查询者输入查询条件··· 224.5.2 查询条件被传达到查询分析器中··· 224.5.3 查询遍历树··· 234.5.4 返回结果··· 234.6 Lucene 检索原理··· 234.7 Lucene和Nucth的中文分析模块··· 254.7.1 Nutch分析··· 254.7.2 Nutch中文搜索3.1 中文分词··· 264.7.3 利用JavaCC构造中文分析模块··· 274.7.4 分词小结··· 284.8 Lucene与Spider的结合··· 284.8.1 Index类的实现··· 284.8.2 HTML解析类··· 294.9 Lucene 小结··· 31第5章基于Lucene的搜索引擎实现··· 325.1 基于Tomcat的Web服务器··· 325.1.1 什么是基于Tomcat的Web服务器··· 325.2 用户接口设计··· 325.2.1 客户端设计··· 325.2.2 服务端设计··· 335.3 在Tomcat上部署项目··· 355.4 小节··· 35第6章搜索引擎策略··· 366.1 简介··· 366.2 面向主题的搜索策略··· 366.2.1 导向词··· 366.2.2 网页评级··· 366.2.3 权威网页和中心网页··· 376.3 小节··· 38结束语··· 39参考文献··· 40致谢··· 41外文资料原文··· 42外文原文翻译··· 48 第1章引言1.1 选题背景：面对浩瀚的网络资源，搜索引擎为所有网上冲浪的用户提供了一个入口，毫不夸张的说，所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展：第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1，000，000个网页，极少重新搜集网页并去刷新索引。而且其检索速度非常慢，一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR（Information Retrieval）、网络、数据库等技术，相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月，网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。大约在1996年出现的第二代搜索引擎系统大多采用分布式方案（多个微型计算机协同工作）来提高数据规模、响应速度和用户数量，它们一般都保持一个大约50，000，000网页的索引数据库，每天能够响应10，000，000次用户检索请求。1997年11月，当时最先进的几个搜索引擎号称能建立从2，000，000到100，000，000的网页索引。Altavista搜索引擎声称他们每天大概要承受20，000，000次查询。结束语本课题对基于因特网的Java搜索引擎结构和性能指标进行了分析，了解Spider程序的结构和功能。在进行海量数据搜索时，如果使用单纯的数据库技术，那将是非常痛苦的，速度将是极大的瓶颈。所以本文提出了使用全文搜索引擎Lucene进行索引、搜索。解决中文分词和有效的中文搜索信息。同时解决了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。对于如何构架基于Tomcat的Web服务器，使得用户通过浏览器进行新闻的搜索有了一定的理解，对Tomcat如何部署进行了说明。在些基础上，终于可以调试出一个简单的在本地搜索新闻Java搜索引擎。参考文献[1] Jeff Heaton(美), Programming Spiders, Bots, and Aggregator in Java.[2] Borland Software Corporation（美）,JBuilder培训教程（译者：周鹏 [等] 译）北京：机械工业出版社[3]徐宝文，张卫丰. 搜索引擎与信息获取技术.北京：清华大学出版社,2003.5[4]车东.基于Java的全文搜索引擎Lucene[5]罗旭.主题搜索引擎的设计与实现[6]Bruce Eckel(美).Thinking in Java.北京：机械工业出版社[7] Otis Gospodnetic Erik Hatcher (美).Action in Lucene.电子工业出版社,2007.1[8]耿祥义,张跃平. JAVA2实用教程(第二版).北京:清华大学出版社，2004.2[9]刘彬.JSP数据库高级教程.北京：清华大学出版社，2006.3[10]刘卫国,严晖.数据库技术与应用——SQL Server.北京:清华大学出版社,2007.1[11]闫宏飞.Tiny Search Engine: Design and implementation(PPT). Oct.2003[12]李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统.北京:科学出版社,2004 更多参考请点击

论文文献搜索引擎

文献党下载器（wxdown.org）：整合汇集大量中外文献数据库，每个数据库又提供了海量的文献资源。主要用于查询下载中外文献。

知网：国内最大知识库，综合学科。提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书、引文库、中国经济社会大数据研究平台等学术文献资源统一检索、统一导航、在线阅读和下载服务。

万方：国内著名知识库之一，综合学科。涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库。

维普：期刊文献查询下载平台。

读秀、超星：主要是电子书查询下载，需要下载超星阅读器。

百度学术：免费学术论文搜索引擎，部分文献可直接下载。

谷歌学术：免费外文学术论文搜索引擎，部分文献可直接下载。

Web of Science（ISI科学引文索引）：包括著名的三大引文索引数据库(SCI,SSCI,A&HCI)。ScienceDirect（Elsevier）：荷兰一家全球著名的学术期刊出版商，每年出版大量的学术图书和期刊，大部分期刊被SCI、SSCI、EI收录，是世界上公认的高品位学术期刊。

ProQuest：美国国会图书馆指定的收藏全美国博硕士论文的机构，ProQuest Dissertations & Theses Global（PQDT Global）是目前世界上规模最大。

使用最广泛的博硕士论文数据库。SpringerLink：是全球最大的在线科学、技术和医学(STM)领域学术资源平台。主要用于外文电子书检索。

PubMed：生物医学信息检索系统，该系统通过网络途径免费提供包括MEDLINE在内的自1950年以来全世界70多个国家4300多种主要生物医学文献的书目索引和摘要，并提供部分免费和付费全文链接服务。

Wiley：全球最大的学术出版商之一，面向专业人士、科研人员、教育工作者、学生、终身学习者提供必需的知识和服务。

IEEE/IEE Electronic Library (IEL) 数据库：收录美国电气电子工程师学会（ IEEE ）和英国电气工程师学会（ IEE ）出版的 242 种期刊、 8706 余种会议录和近 1706 种标准的全文信息。

查论文的网站有哪几个？相关内容如下：

一、查论文的网站：中文文献查询网站；

常用的中文文献查阅网站有中国知网、万方数据库、维普网、全国图书馆论文搜索网、全国图书馆参考咨询联盟、超星等等。

中国知网的论文文献收集数量以及收集质量毋庸置疑，对于大部分本科阶段的学生使用知网这一个查论文的网站基本上可以满足论文对参考文献的要求，万方相较于知网其收集数量会偏少，但也涵盖了会议论文、学位论文、专利、期刊、科技报告等7600种科技类全文，也是一个大型的网络数据库。

当然了，天下没有免费的午餐，部分的文献是需要付费才能正常查阅下载的。

二、查论文的网站：外文文献查询网站；

Web of Science、Science Direct、OALib、谷歌学术、HighWire 斯坦福学术文献电子期刊、Pubmed等等。其中Web of Science是国际上知名度很高的综合性论文检索网站，搜索引擎高级，不仅可以限定文章的学科，还能限定作者的国籍单位等等，不过非查阅文献需要收费。

OALib则一个提供论文免费查阅下载的网站，该网站涵盖了数学、人文、工程、生物、材料、医学和人文科学等多个领域。

文献查询网站如下：

一、CiteSeerX：

CiteSeerX是免费论文搜索网，是CiteSeer的换代产品，而CiteSeer引文搜索引擎是利用自动引文标引系统（ACI）建立的第一个学术论文数字图书馆。CiteSeerX的检索界面简洁清晰，默认为文献（Documents）检索，还支持Authours、tables检索。

若选择“IncludeCitations”进行搜索，期刊文献等检索范围会扩大，不仅包括学术文献全文的数据库，还会列出数据库中每篇论文的参考文献。点击“AdvancedSearch”，还可以进入高级检索界面。高级检索会增加检索的精确度，除了支持作者、作者单位、篇名等基本检索之外，还支持文本内容以及用户为论文定义的标签等更为详细的检索。

二、国家哲学社会科学文献中心：

国家哲学社会科学文献中心是由中国社会科学院牵头，教育部和国家新闻出版广电总局配合建设，2016年12月30日正式上线运行。主要开设有资讯、资源、专题、服务四个栏目，资源包括中文期刊、外文期刊、外文图书、古籍四类，收录哲学社会科学相关领域文献共计10,000,000余条，提供有线阅读、全文下载等服务。

还收录有国内外哲学社会科学领域重要的政府机构、高等院校、学术机构以及数据库的链接便于广大读者查阅、使用。初步形成国家哲学社会科学学术期刊数据库，外文学术期刊数据库，中国社会科学院科研成果数据库等特色资源数据库。

文献检索的意义：

1、在浩瀚的知识海洋中，成功的探索者既要能驾驭高速艇驶往预定目标，也要能划着小船从容搜寻；既要掌握最新的网络和电子资源的检索手段，也要学会用传统方法从纸本书刊中获得资源。

2、可扩大视野。马克思曾将利用文献比作站在巨人的肩膀上。充分占有文献可以开拓研究者的思路，深化对问题的认识，启发深层次的思考。经常查阅文献可站在研究领域的最前沿，可跟踪了解国内外的最新研究成果和方法，并从中得到启发，寻找解决问题的可能答案，使所研究的课题站在更高的起点上。

文献论文搜索引擎

文献党下载器（wxdown.org）：整合汇集大量中外文献数据库，每个数据库又提供了海量的文献资源。主要用于查询下载中外文献。

万方：国内著名知识库之一，综合学科。涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库。

维普：期刊文献查询下载平台。

读秀、超星：主要是电子书查询下载，需要下载超星阅读器。

百度学术：免费学术论文搜索引擎，部分文献可直接下载。

谷歌学术：免费外文学术论文搜索引擎，部分文献可直接下载。

ProQuest：美国国会图书馆指定的收藏全美国博硕士论文的机构，ProQuest Dissertations & Theses Global（PQDT Global）是目前世界上规模最大。

使用最广泛的博硕士论文数据库。SpringerLink：是全球最大的在线科学、技术和医学(STM)领域学术资源平台。主要用于外文电子书检索。

Wiley：全球最大的学术出版商之一，面向专业人士、科研人员、教育工作者、学生、终身学习者提供必需的知识和服务。

论文查询网站有FindaRticles文献论文搜索、钛学术文献平台、Semantic Scholar学术搜索引擎和Base Search德国比勒菲尔德学术搜索引擎。

一、FindaRticles文献论文搜索

1、平台优势：类别比较丰富，体量也比较广，涵盖了艺术与娱乐、汽车、商业与经融、计算机与技术、健康与健身、新闻与社会、科学教育、体育等各个方面刊物的上千万篇论文。

2、平台评价：检索操作简单，文献质量可能有所欠缺，但是它所拥有的文献总量达1100万篇，资料来源于杂志、定期刊物和报纸等，而且是一个适配谷歌的搜索站点。

二、钛学术文献平台

1、平台优势：拥有超广的收录视角，超强的NPL算法，目前已收录2.4亿余篇各式文献，是国内实力极强的一站式文献检索网站。

2、平台评价：实用功能较多，包括但不仅限于丰富的检索方式、高效检索文献功能，细致的文献详情页面、分析选题等等，致力于节省同学们下载后再通过内容去分析价值的时间。

三、Semantic Scholar学术搜索引擎

1、平台优势：由微软联合创始人Paul Allen创立，其检索结果来自于期刊、学术会议资料或者是学术机构的文献。这个搜索引擎能检索到80%的免费论文文献，大约有300万份。

2、平台评价：也是和钛学术功能一样可以提供图表预览，方便研究人员省下更多筛选的工作，另外是信息筛选技术可以搜寻论文发布的会议名称、论文发布的时间，从论文文中筛选出关键词句等。

四、Base Search德国比勒菲尔德学术搜索引擎

1、平台优势：由德国比勒费尔德大学图书馆开发的一个多学科的学术搜索引擎，提供对全球异构学术资源的集成检索服务，Base整合的文献大约有160个开放资源即超过200万个文档数据信息。

2、平台评价：站面精简，查找文献比较快速，以学科资料为主。

学术文献下载器（wxdown.org)整合汇集中外文献数据库资源，如：ScienceDirect（Elsevier）、Web of Science、SpringerLink、PubMed、Wiley、EI、Taylor & Francis、IEEE、ProQuest等等以及世界顶级知名期刊：nature《自然》、science《科学》、CELL《细胞》、PNAS《美国科学院院报》等等。Elsevier（sciencedirect）是荷兰一家全球著名的学术期刊出版商，每年出版大量的学术图书和期刊，大部分期刊被SCI、SSCI、EI收录，是世界上公认的高品位学术期刊。涉及众多学科：计算机科学、工程技术、能源科学、环境科学、材料科学、数学、物理、化学、天文学、医学、生命科学、商业、及经济管理、社会科学等。Web of Science数据库是国际公认的反映科学研究水准的数据库，其中以SCIE、SSCI、A&HCI等引文索引数据库，JCR期刊引证报告和ESI基本科学指标享誉全球科技和教育界。EI(工程索引 )在全球的学术界、工程界、信息界中享有盛誉，是科技界共同认可的重要检索工具。涉及领域：机械工程、机电工程、船舶工程、制造技术、矿业、冶金、材料工程、金属材料、有色金属、陶瓷、塑料及聚合物工程等。PubMed 是一个免费的搜寻引擎，提供生物医学方面的论文搜寻以及摘要的数据库。它的数据库来源为MEDLINE。提供指向全文提供者（付费或免费）的链接。Wiley 作为全球最大、最全面的经同行评审的科学、技术、医学和学术研究的在线多学科资源平台之一，Wiley Online Library为全学科期刊全文数据库，出版物涵盖学科范围广泛——包括化学、物理学、工程学、农学、兽医学、食品科学、医学、护理学、口腔医学、生命科学等。SpringerLink是全球最大的在线科学、技术和医学(STM)领域学术资源平台。Springer 的电子图书数据库包括各种的Springer图书产品，如专著、教科书、手册、地图集、参考工具书、丛书等。IEEE致力于电气、电子、计算机工程和与科学有关的领域的开发和研究，在太空、计算机、电信、生物医学、电力及消费性电子产品等领域已制定了1300多个行业标准，现已发展成为具有较大影响力的国际学术组织。谷歌学术是一个可以免费搜索外文学术文章的搜索引擎，包括了世界上绝大部分出版的学术期刊，可广泛搜索学术文献。部分文献可直接下载。Taylor & Francis科技期刊数据库，拥有全球最多社会科学期刊，提供550余种经专家评审的高质量科学与技术类期刊，其中近80%的期刊被Web of Science 收录。该人文社科期刊数据库包含14个学科：人类学、考古学与文化遗产，人文与艺术，商业管理与经济，犯罪学与法学，教育学，地理、城市、规划与环境，图书馆与信息科学，媒体、文化与传播研究，心理健康与社会保健，政治国际关系与区域研究，心理学，社会学及其相关学科，体育、休闲与旅游，策略、防务与安全研究。ProQuest学位论文全文数据库，是将ProQuest公司PQDD文摘库（现名PQDT）中适合中国科研人员科研和教学使用的论文全文建设而成，并向全国百数家科研教学单位的读者提供全文服务。是目前国内最完备、高质量、唯一的可以综合查询国外学位论文全文的数据库。sci-hub免费下载外文文献，但该网站经常换域名，而且没有新文献。

毕业论文中文搜索引擎

除了知网还有全国图书馆参考咨询联盟，OALib免费论文搜索引擎，万方数据库，Intechopen免费科技文献，HighWire斯坦福学术文献电子刊，Intute学术资源搜索工具，LolMyThesis哈佛毕业论文分享网站

以下四种方式查找参考文献：

1.检索头牌：Pubmed

Pubmed作为美国国家医学图书馆所属的国家生物技术信息中心开发的一款论文搜索引擎，凭借其海量的文献数据和简便快捷的搜索方式，成为了网上使用最广泛的生物医学方面的文献搜索工具。我们可以通过最简单的在标题和摘要中搜寻相关的关键词或相关公式，来寻找相关的文章。

2.用之不易的Google学术

这个其实并不能算是文献检索工具，但其有个很大的特点就是能够对全文进行搜索，而不是像上面说的那两个只是搜索标题和摘要。因此当要搜索事实型依据的时候，比如，要搜索“某病的发病率为36%”这样的出处，在摘要中可能没有具体的数据，所以需要google来进行全文搜索。

Google学术的功能还是挺强大的，不过在天朝却被封了，要是想用还得翻墙。不过不知道是应广大学者的呼唤，据说，最近Google又可以用了，这机会可是来自不易，小伙伴们还是抓紧时机享受这一福利吧。

3.关联检索：Web of Science

这个方法比较适合研究机构，因为Web of Science的数据库是要收费的，但其搜索引擎比Pubmed更高级，不但能够限定文章的学科，还能限定作者的国籍单位等等，非常好用。值得一提的是它里面的逻辑连接词比Pubmed多了一个很实用词——Near，这个能在相邻的两个句子中寻找关键词。比方说要搜索高血压和糖尿病的关系，如果使用一般”AND“来连接，可能会出现头一句是说的糖尿病，然后结尾出来个高血压，其实并无联系。但用”Near”的话，由于两个词之间的距离被限定了，因此相关的概率也会高的多。

4.中文检索：万方，知网，维普等。

①首先要在三大网上中文期刊数据库中查找最新的期刊论文文献。中文科技期刊全文数据库和中国期刊网 ②在清华库中有中国优秀博硕士学位论文全文数据库和中国重要会议论文全文数据库，也是撰写毕业论文的重要信息来源； ③三大中文数字图书馆（超星、方正、书生）是重要的文献信息来源； ④使用两大搜索引擎，可以帮助你扩大思考的范围，指引你找到新的文献信息资源 ⑤如果找不到足够多的文献怎么办？可以采用“滚雪球法”进行查找，即利用已找到的文献后的参考文献扩大检索范围。清华库中的《中国期刊引文——全文链接记录库》也是帮助你实现“滚雪球查找”的有力工具；

如下：

1、中国知网

网址：

中国知网是国内查找学术文献最齐全的网站，以收录核心期刊和专业期刊为主，权威、检索效果好、期刊类型比较综合、覆盖范围广。提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源统一检索、统一导航、在线阅读和下载服务。

2、万方数据知识服务平台

网址：

万方数据、论文、文献、期刊论文、学位论文、学术会议、中外标准、法律法规、科技成果、中外专利、外文文献。重点收录科技部论文统计源的核心期刊，核心期刊比例高，收录文献质量高，不定期更新。

3、超星发现

网址：

全世界最大的中文电子书图书网站，数据库涵盖了1949年后85%以上的中国大陆所有出版书籍，主要面向大学以上高校用户。

4、OALib 免费论文搜索引擎

网址：

OALib是一个学术论文存储量超过420W篇的网站，其中涵盖数学、物理、化学、人文、生物、材料、医学和人文科学等领域，文章均可免费下载。

它的一大特色在于功能上支持页面快照，不出站就可直接浏览文章标题、作者、关键词、以及摘要等基本信息，大大缩短了时间成本，是一个较为高效的论文查找网站。

5、BaseSearch 德国比勒菲尔德学术搜索引擎

网址：

它是由德国著名的比勒菲尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎，提供对全球异构学术资源的集成检索服务。BaseSearch整合了德国比勒菲尔德大学图书馆的图书馆目录和大约160个开放资源(超过200万个文档)的数据。

网络搜索引擎论文答辩

网络教育是属于国民教育体系中的重要组成，以其方便的的学习方式，备受广大学员喜爱，那么网络教育毕业论文答辩有什么技巧？下面跟求学问校远程网小编一起来看看。网络教育毕业论文答辩的技巧有学生需要对自己所写论文要十分熟悉，并且最好可以将论文中设计的专业基本概念和原理整理出来等等，这样就可以更好的通过答辩。1、对自己所写论文要十分熟悉。当然，通过独立思考，反复推敲，按自己的构思动手写成的论文，你一定是熟悉的。不过我们过去接触过的论文中，有的是把收集来的资料“粘贴”成论文，提交论文时，本人没有认真读一遍，交出的论文漏洞百出。比如，有的论文称“21世纪”，而后面的论述用的资料又是“1995年如何如何”。这样答辩时由于你对论文不熟悉，针对所提问题就很难回答;还有的毕业论文给人感觉写的不错，但答辩时却一问三不知，显然对这篇毕业论文你不熟悉。所以参加毕业论文答辩，首先要熟悉自己所写论文。2、针对答辩提出问题的方向，在答辩前做些准备。(1)对自己所写论文中涉及的专业基本概念和原理，在答辩前最好一一整理出来。比如，论文中我的第二个论点涉及了某个基本概念，这个基本概念的内容我参考了某“专业书”的第几页，内容是什么，整理好备用。(2)结合所写论文的论点，在答辩前，收集一些资料。比如，很说明问题的好案例;比如，在你实际工作中遇到的实例等等。(3)在当前所学专业发展中的诸多问题及热点问题方面。平时多关注所学专业当前的政策研究、热点问题的讨论。猎考网招生老师还可以在线为您答疑：网络教育统考免考条件及办理程序2023年统考考试工作安排

论文写作中文献资料检索

在社会的各个领域，许多人都写过论文吧，借助论文可以达到探讨问题进行学术研究的目的。一篇什么样的论文才能称为优秀论文呢？下面是我收集整理的论文写作中文献资料检索，欢迎阅读与收藏。

自从有了文献便有了文献检索。当人们从中查找所需信息时,文献检索也就应运而生。只不过早期可检索的对象较少,因而检索是一个不自觉的过程。早期的文献检索主要是手工检索,人们通过“心想、手翻、眼看”的方式进行。随着社会的发展和文献量的增加,人们逐渐认识到文献检索的必要性与重要性,现代文献检索是以计算机网络技术和现代信息技术为基础,在文献检索的应用中逐渐发展起来。

一、文献检索概述

文献是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。现在通常理解为图书、期刊等各种出版物的总和。

文献是记录、积累、传播和继承知识的最有效手段,是人类社会活动中获取情报的最基本、最主要的来源,也是交流传播情报的最基本手段。根据载体把其分为印刷型、缩微型、机读型和声像型。根据不同出版形式及内容,可以分为:图书、连续性出版物、特种文献。

电子文献是以数字方式将图、文、声、像等信息储存在磁、光、电介质上,通过计算机、网络或相关设备使用的记录有知识内容或艺术内容的文献信息资源,包括电子书刊、数据库、电子公告等。

文献检索,就是从文献信息集合中找出所需要的文献的过程,相当于人们通常所说的资料查寻。

二、纸质文献的检索

纸质文献的检索一般分为两种:直接检索和间接检索。直接文献检索地目的是为了获取所需要的文献。因此,有时可以直接从报刊杂志中通过浏览的方法直接获得所需文献,称之为直接检索。它具有方便、快捷的特点,适于浏览新到的书刊资料,有时是一种获得最新情报的方法,但同时又受到各种限制而漏查很多相关文献。因此,它只能作为一种辅助性的检索方法。

间接文献检索是一个利用检索工具并从中查出特定文献的过程。这一过程就称为间接检索。它可以比较系统地、全面地获得相关课题的文献信息。我们需要掌握的就是这种利用检索工具的间接检索的方法。这也是文献检索的主要方式。它大体上可以分为以下五个步骤:

(一)分析研究课题,明确检索要求:弄清楚课题的性质及学科专业范围是什么,所需的文献类型,要求的文种、年代的限定、课题的关键词等等是检索的第一步。

(二)选择检索工具:根据检索课题的要求,选择最能满足检索要求的检索工具或数据库。首先必须对各种检索工具所覆盖的学科范围有清楚的了解,然后从文献的类型、文种、出版的时间等方面来考虑选用哪种检索工具最合适。

(三)确定检索策略:选用具体的检索工具后,就要考虑选择和确定检索方法,确定具体的检索点,是从分类途径还是从主题途径检索,所查找的文献要达到什么要求,选用什么检索词等,以便具体进行检索。

(四)使用检索工具:确定了具体的检索方法后,就要利用所用的检索工具,在一定的年代和文献范围内具体查找,以获得文献信息。手工检索时可以一边检索一边分析取舍,获得符合需要的文献。(五)获取原文:检索文献最终要获取原文,如果在馆藏文献中查不到,则可通过各类联合目录获得其他单位收藏的信息,再通过馆际互借等途径或方式获取原文。这样就完成了文献检索的全过程。

文献检索方法主要有三种:

(一)追溯法(亦称滚雪球法):利用著者发表的文献后所列的参考文献为线索,由近及远,进行逐一追踪的查找办法,追查原文,再从这些原文后所附的参考文献逐一检索,象滚雪球似的获得一批批相关文献的方法。它是科研人员常喜欢用的一种简便的获得文献的途径。

(二)常用法:常用法也称工具法,就是直接利用各种文献检索工具查找文献的方法。由于检索工具的种类繁多,一般应根据课题内容特点,首先利用综合性的检索工具,然后再使用专业性的检索工具,二者结合,才不致造成文献资料的漏检。常用法根据时间范围又分为顺查法、倒查法和抽查法。

(三)循环法:循环法也称分段法、交替法或综合法,这是追溯法和常用法的结合。是将追溯法和常用法结合起来交替使用,充分发挥二者的优势分期、分段地交替使用,直到获得满意的相关文献为止。实际课题的检索选用何种方法,要根据具体情况而定:一是根据课题研究的需要;二是视所能利用的检索工具和检索手段。在检索工具比较丰富的条件下,可以利用常用法;在获得针对性很强文献的条件下可利用追溯法获得相关性较强的文献;获悉研究课题出版文献较多的年代可利用抽查法。

三、电子文献的检索

随着计算机、数据库和互联网络技术的普及,电子化图书馆、文献资料网络化服务等正成为我们获取文献资料的必不可少的手段,是我们学习、工作和科研的有力助手。利用好电子文献和检索工具,掌握好网络信息的搜索方法和策略对于获取信息是必要的。

传统的图书检索手段和方法对电子信息的检索作用有限。现代文献信息均能以数字化的形式获得,如电子图书、电子期刊、学位论文、会议论文、专利文献、标准文献、声像资料、多媒体资料等。电子文献的检索途径主要有以下几种:

(一)网络目录和搜索引擎

各种各样的Internet网络文献检索工具不计其数,根据提供检索与否,有网络目录和搜索引擎之分。

网络目录是按主题的等级排列的主题类目索引,类别目录按一定的主题分类体系组织,排列方法有字母顺序法、时序法、地序法、主题法等或是各种方法综合使用。用户通过逐层浏览类别目录、逐步细化的方式来寻找合适的类别直至具体资源。

搜索引擎则强调的是它的检索功能,能提供布尔逻辑检索、短语或邻近检索、模糊检索、自然语言检索等方式查询信息。各种资源进行标引,并为检索者提供检索的工具。基于搜索引擎的检索方法接近于通常所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获取检索结果,并输出给用户。

(二)联机馆藏目录

网络上有许多机构提供的馆藏书目信息、中外文期刊联合目录信息。其中包括各图书馆和信息机构提供(下转第137页)

(上接第36页)的公共联机检索(OPAC)馆藏书目、地区或行业的图书馆的联合目录等。

中国国家图书馆在网上提供图书目录在线检索,有题名、责任者、出版者、关键词、标准书刊号、分类号、出版地、出版国等10个检索途径。全国高等教育文献保障体系(CALIS)提供61所高校的馆藏期刊、书目和学位论文联合查询。

(三)网络数据库

网络数据库包括综合性和专业性期刊数据库、专利数据库等信息资源。这类信息资源可分为商业性和非商业性的数据库。这些数据库由专门的信息机构或公司专业制作和维护,信息质量高,是专业领域内常用数据库。

非商业性数据库因为免费使用,用户以较低的成本可获得所需的信息,所以也有很高的吸引力。如:IBM公司的免费专利文献数据库,提供美国专利的免费检索,用户可检索到1971 年以来的美国专利说明书的内容,包括专利书目信息和专利项,浏览1974年以来的专利文献。

(四)电子出版物

由于网上信息传播速度快,越来越多的出版商注重网上报刊发行。目前国内外已有很多出版高和信息服务中介商介入电子出版行业。电子出版物有电子图书、电子期刊和电子报纸。

(五)参考工具书

网络中许多参考资料是可以免费使用的,如新格罗夫音乐与音乐家大词典、英国大不列颠百科全书、汉语词典、学校或企业名录、中国国家统计局统计资料等大型工具书已加入因特网。

文献检索和使用的工作贯穿了论文写作的全过程:我们往往是先确定写作的大致内容;其次根据这个大致内容确定文献搜集的范围;然后阅读了主要的文献后再确定研究写作的具体内容;最后根据具体内容全面检索原始文献, 搜得的文献又充实了论文写作的基础。

一、文献检索的意义

文献检索在毕业论文撰写中的重要作用文献检索就是从大量的文献中迅速、准确地查出与特定的科学研究课题有关的资料。文献检索在大学生毕业论文撰写中有着不可替代的重要作用。

1.文献检索便于继承和借鉴前人的科研成果，避免重复研究

积累、继承和借鉴前人的研究成果是科学发展的重要前提，没有继承和借鉴就不可能有创新。毕业论文选题同科研选题、立项一样，必须通过文献信息检索或查新技术掌握国内外同类研究的动态进展，从中吸收有益的启示或参考数据，掌握大量相关信息，或得到更多、更有价值的论证依据。正如英国物理学家牛顿所说的是“站在巨人的肩膀上”，是指科研要熟悉别人的劳动成果，从前人研究的`“终点”中，找出自己研究的“起点”，从前人所用的研究方法、手段中受到启发，拓宽思路，分析研究所占有的资料，提炼出正确鲜明的观点。

2.文献检索有利于节省大学生查找文献时间，提高毕业论文质量

信息时代文献资料的迅猛增长，使得文献资料的`检索困难重重。如能灵活运用文献检索的技能，缩减检索时间，即能延长论文的写作时间。同时，文献信息检索利用可为毕业论文的观点提供理论依据和支持。大学生通过对文献信息检索分析比较后，才能从论题的创新性、内容的科学性等方面进行质量评价，进而提高论文质量。

3.文献检索启发学生的创造性思维与研究能力

图书馆文献是过去知识经验的总结，也是未来知识发展的向导。在文献检索过程中与论题有关联的文献信息很容易激发、调动大学生的潜在知识和智能，并从中获得灵感。不同的观点和方法，可促进大学生以发散性思维思考分析问题，拓展认识的深度和广度，进而全面获取有关学科的文献信息，及时了解学科领域中出现的新问题、新理论和新观点。图书馆文献信息检索利用的过程就是提高大学生研究能力的过程

二、文献检索的途径与方法

1.分析研究课题，确定检索要求

在进行具体的文献检索前，首先要分析课题，抓住课题的本质和要求，掌握代表课题内容的主题概念及其相关事物。依据本课题主题词来选定相应的检索工具，并从中选定检索标志，确定检索途径。在这方面自然科学、工程技术、人文和社会科学等具有不同的检索内容和要求。

2.选择检索工具

目前全世界有 2000 余种手工检索工具（书本型检索工具），还有联机检索、光盘数据库检索、Internet 网络检索等计算机检索工具。选择检索工具可利用“检索工具书指南”以及各种检索教材来了解检索工具书的收录情况。结合本课题，针对图书馆文献资料收藏情况，确定采用手工检索与机检相结合的方法。常用的检测工具包括以下几种：

书本检测工具：全国报刊索引、复印报刊资料、报刊资料索引、中国社会科学文献题录、国外社会科学论文索引等。

光盘数据库：全国报刊索引数据库、中国学术期刊（光盘版）、中国科学引文数据库、中国科技期刊篇名数据库、中国科技期刊篇名数据库等。

网络资源：中国知网、中国期刊网、、院校图书馆等。

3.文献检索的途径与方法

文献检索方法可分为常用法、追溯法和分段法三种。常用法是利用检索工具查找文献的方法，有三种类型，一是顺查，是以检索课题起始年代为起点，按时间顺序由远及近的查找文献的方法。二是倒查，是逆时间顺序由近及远的查找文献的方法。三是抽查，是针对学科发展的特点，抽出该学科发展迅速，发表文献比较集中的一段年代，抽查某几年的书籍和期刊、数据库。追溯法是利用已有文献后面所附的参考文献进行追溯查找的方法。一般参考文献中的原文结尾都附有新的参考文献目录，可视需要一直追溯下去，从而获得足够的文献资料。利用这些资料特别要注意综述性的文献资料，因为这些资料已对某一问题进行了一定的归纳整理，这样可以节约查找、阅读原始文献的时间。追溯法比较适合初写论文的大学生选用。分段法是将常用法与追溯法交替使用，既利用工具书检索，又利用文献后所附参考文献进行追溯。

另外，要检索重点资料，掌握核心期刊。核心期刊是期刊中学术水平较高的刊物，是我国学术评价体系的一个重要组成部分。它主要体现在对科研工作者学术水平的衡量方面，如在相当一批教学科研单位申请高级职称、取得博士论文答辩资格、申报科研项目、科研机构或高等院校学术水平评估等，都需要在核心期刊上发表一篇或若干篇论文。某学科（或某领域）的核心期刊，是指那些发表该学科（或该领域）论文较多、使用率（含被引率、摘转率和流通率）较高、学术影响较大的期刊。目前国内有 7 大核心期刊(或来源期刊)遴选体系：

（1）“北大核心”：北京大学图书馆“中文核心期刊”，即北京大学图书馆与北京高校图书馆期刊工作研究会联合编辑出版的《中文核心期刊要目总览》，每四年修订一次，目前是 2012 版；

（2）“南大核心”：南京大学“中文社会科学引文索引(CSSCI)来源期刊”；

（3）中国科学技术信息研究所“中国科技论文统计源期刊”(又称“中国科技核心期刊”)；

（4）中国社会科学院文献信息中心“中国人文社会科学核心期刊”；

（5）中国科学院文献情报中心“中国科学引文数据库(CSCD)来源期刊”；

（6）中国人文社会科学学报学会“中国人文社科学报核心期刊；

（7）万方数据股份有限公司的“中国核心期刊遴选数据库”。

我认为网络答辩的方式确实会更加考验学生的心理素质，而且还需要提前做好规划。

个人觉得网络答辩的方式，不会更加考验学生的心理素质。因为你在答辩的过程当中不要面对那么多人，自然你就不会那么紧张了。

索引序列
以搜索引擎为主题的论文
论文文献搜索引擎
文献论文搜索引擎
毕业论文中文搜索引擎
网络搜索引擎论文答辩
返回顶部

以搜索引擎为主题的论文