首页 > 期刊投稿知识库 > 关于信息检索方面的主题论文

关于信息检索方面的主题论文

发布时间:

关于信息检索方面的主题论文

网络信息检索方法与应用这个原创。联系看我资料

我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。

信息检索技术论文 –基于网格的面向专业内容的Web信息检索1 引言近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。2.1 集群系统的设计由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法:XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。图22.2 网格中间件的设计图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下:(1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。(2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。(3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。(4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。(5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。文秘杂烩网

现代信息检索方法的探讨要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。

关于信息检索的论文

信息检索技术论文 –基于网格的面向专业内容的Web信息检索1 引言近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。2.1 集群系统的设计由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法:XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。图22.2 网格中间件的设计图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下:(1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。(2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。(3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。(4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。(5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。文秘杂烩网

高校文献信息检索的必要性与有效方法论文

在学习、工作中,大家总免不了要接触或使用论文吧,论文可以推广经验,交流认识。如何写一篇有思想、有文采的论文呢?以下是我收集整理的高校文献信息检索的必要性与有效方法论文,希望能够帮助到大家。

摘要: 随着互联网信息、知识的不断更新,文献信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段,成为继续学习的重要工具。通过探讨文献信息检索的科学定义及高校信息检索的必要性,进而从文献信息检索流程角度提出高校文献信息检索的途径和策略。

关键词: 文献;信息检索;策略;

文献信息是巨大的社会财富,它伴随着社会的广泛进步而迅速更新和积累,在带给我们越来越便捷的同时,也必然给阅读、查找和充分利用信息带来一定困难。为解决庞大的科学文献和个人特定需求之间的矛盾,便产生了文献信息检索,文献信息的检索和利用已经发展成为一门专门的学科,高校信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段。

一、文献信息检索定义

“信息检索(Information Retrieval)”一词最早出现在20世纪50年代,有广义和狭义之分。

广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。也就是说,信息检索包括两个环节和内容:“存”和“取”。狭义的信息检索则专指信息检索过程中的第二个环节,即从信息集合中找出所需要信息的过程,也就是我们常说的信息检索、信息查找或信息搜索等术语。

信息检索按照检索对象的不同又可以分为文献检索、数据检索、事实检索。本文侧重于文献检索,即通过检索文献来获取所需要的信息、知识、情报[1]。

二、高校文献信息检索的必要性

(一)信息的多元化需要师生具备一定的信息评价和筛选能力

在当今互联网、信息化社会,人们无时无刻不在利用信息资源进行生产、生活和创新创造。但面对浩瀚的信息海洋,信息流和信息量越来越多、越来越大,人们进行检索和利用的困难也就越来越大。随着4G网络的覆盖和智能手机的普及,人们轻而易举就能接触各种各样的信息,各类门户网站、微博、微信、QQ等推送信息的常态化,一方面丰富了我们的日常生活,拓宽了我们的视野;另一方面也给我们对于浩瀚无垠的信息的过滤、评价、筛选和运用带来极大的挑战[2]。在纷繁复杂的信息洪流中,哪些是对我们有益的,哪些会给我们带来负面的影响,都要求我们具备一定的信息鉴别和评价的能力,需要我们具备较高的信息素养和信息处理能力。文献信息检索能力成为高校师生应掌握的基本学习技能之一,是继续学习的重要手段,在教学、学习、科研和生活方面发挥巨大作用。

(二)学校对学生的信息素养教育重视程度不够

早在20世纪70年代,联合国教科文组织就对“文盲”下了新的定义:在当今科学技术飞速发展的时代,文盲已不是不识字的人,而是不知道如何获取知识的人。我国国家教委要求,全国各大院校要全面普及开设文献信息检索课,这对大学生普及文献检索知识、提高信息素养、增强信息检索的兴趣、提高信息检索能力都具有十分重要的现实意义[3]。然而现状却是,全国各大高校开设的信息检索课程大部分是以选修课的形式存在,学生自愿选择,主要目的也就是为了修够学分,以这样的方式开展信息教育并不能取得理想的效果,这种重专业、轻信息素养的教育还普遍客观存在。

(三)信息检索助力高校科学研究

科学研究是高等学校重要职能之一,大学对整个社会的科技进步与发展起着重要引领与推动作用。现代科学技术的迅猛发展,各个学科的交叉和渗透一方面促使了新的学科不断涌现,源源不断地出现大量新的知识;另一方面,知识的老化和被淘汰的速度也会越来越快。作为高校科研人员,必须具备一定的信息素养,即敏锐的信息意识、发现高质量信息的能力、信息的选择和评价的能力以及如何正确地引用文献、尊重他人知识产权的能力。作为科学研究者,必须时时了解学科最前沿的动态,掌握最新的知识,这样才能研究出有价值的科研成果,而文献信息检索能力就是科学研究人员必不可少的要素之一。为了减少课题的重复研究,提高研究的成功率,科研人员在研究一项课题之前,必须要进行的相关的资料收集和文献检索。在确定选题之后同样要科学合理运用文献信息检索方法开展文献信息甄别筛选和运用,进行进一步研究,保障研究成果的承续性,进而推动科学研究向纵深发展。

三、高校文献信息检索的策略

(一)分析检索问题

在解决一个问题之前,我们首先要做的就是分析问题,对问题的分析是解决问题的关键所在。分析一个问题我们可以从如下几个方面考虑:首先,提问者是谁。同样一个问题,教师跟学生对内容的层次要求就不同;一个专业性的问题,高校专业教师和学生对问题的要求也会不同。其次,问题的性质。不同的问题对应不同的要求,如果我们对一个概念需要界定,或者需要查找与自己所撰写文章密切相关的文献,这时对概念的界定和对文献的检索就需要“准”。如果我们要做一个论文的选题的确定或者做一个项目的申报、企业新产品的开发,在做这些工作之前,我们需要对前人的研究成果做一个全面的普查,这类型的问题的要求就是“全”。再如,我们要了解某个领域的趋势前沿和最新进展,对这类问题的要求就是查找的资料必须要有新颖性,即“新”。再有,对一些技术性强的问题,如专利的申报、企业新产品的开发、某一项技术的引进等,对这类问题的检索要求是“细”。再次,学科和主题。如果只是单一的某一个学科或主题,那么只需要找到收录这个学科资源的数据库进行检索就可以。但是有很多跨学科领域研究的问题如果只是在一个数据库查找,就会造成资源的不全面。第四,资源类型。我们熟知的资源类型有学位论文、会议论文、期刊论文、图书、专利、标准等等,不同的资源类型收录的特点也不同,如内容的深度、系统性、时效性都不同,研究课题不同,对资源类型的要求也不同。第五,资源的范围。查找资料的时候往往对范围进行限定,范围包括时间范围、地域范围、语种范围等。

(二)选择合适的检索工具

分析检索问题之后,我们需要选择合适的检索工具。常用的检索工具有搜索引擎和商业数据库。搜索引擎它具有检索过程不收费、面向所有的终端用户、对用户检索水平要求较低等特点,常用的搜索引擎有谷歌、百度、搜狗、必应等。商业性数据库的特点有:第一,检索需要收费或者授权,高等学校一般都与相关商业数据库合作,校园网环境下一些商业数据库是可以免费使用的。第二,它们的功能和收录资源的范围有明确的定位,如只能检索专利信息的德温特专利创新索引、只能检索学位论文的ProQuest Digital Dissertations数据库、只能检索会议论文的CPCI、只收录世界上顶尖期刊论文的Web Of Sicence的三大引文索引数据库等。第三,这些数据库都有自己的一套检索技术,因此对用户的检索水平要求较高。除了上述的专业性数据库之外,还有一些因经常使用被我们熟知的综合性数据库,如中国知网、维普、万方等。

除了搜索引擎和商业数据库之外,还有一些其他可以免费获取资源的途径,如主题指南(导航)、数字图书馆、政府的网站(数据库)、电子预印本、博客、微博、机构知识库等途径。因此,我们只有熟知各个不同的检索工具以及它们的特色才能检索到不同的文献类型。 高校师生要立足本职工作和学习需要选取适合的文献信息检索工具,助力科学研究、日常教学和学习生活。

(三)抽取恰当的关键词

选取科学适当的检索工具后,下一步工作就是确定检索关键词。

首先,要确定研究问题有哪些核心关键词(Core Keywords),抽取核心关键词可以依据汉语主题词表,如查询表述具体事物名称的名词术语、事物的状态或现象的名词术语、科学分类的名词术语、研究方法、技术方法的名词术语、工艺方法、加工技术的名词术语、化学元素、化合物、金属材料与合金的名词术语、国家名称、地名、组织机构名称以及文献类型、文献载体的名词术语等。其次,为了保证查全率和查准率,应当注意这些核心关键词有无其他的表述方式,如同义词、近义词、与之相关的词、有无缩写形式或者全称形式、有无相关的组织机构、英文的单数复数形式等,如果有,分别检索。第三,避免用太泛的关键词,应选用专指性很强的关键词。例如,我们要检索计算机软件有关的视频资料,如果我们只输入“计算机操作视频”这样类似的检索式,当然也可以找到一些检索结果,但缺乏针对性。我们不妨直接明确输出我们要学习的.软件的名称,如“Powerpoint 视频”,这样检索出的结果的相关性就要高很多。第四,学会利用专业术语。不同的学科,他们的专业术语表述不同,如信息检索、克隆人、电子图书等都属于专业术语,对这些专业术语进行检索的时候,尽可能加上双引号进行精确检索,可以提高检索结果的相关度和准确度。

(四)构造检索式

确定几组关键词后,下一步工作就是要构造检索式。即要用一定的运算符号将这些关键词连接起来,形成具有一定意义的表达式,也叫检索提问表达式。构造检索式具有一定的专业性,这就需要依托信息检索课和上机课来实现,重点指导学生如何正确构造检索式。构造检索式,可以从以下几个方面考虑:首先要明确检索词之间的逻辑关系,用布尔逻辑运算符AND、OR、NOT将它们连接起来;然后需要考虑检索词之间的位置是否需要进行限定,如果需要则根据不同的检索工具使用一定的检索手段对检索词的位置进行限定;对于一些专有名词,是否需要作精确检索,如果需要则给检索词加上双引号;为了使检索结果更加精准,我们还需要把检索限制在某一个范围当中,比如限制在某个字段,语种、出版年、摘要、题名等不同的字段作一个限定,还有其他的各种限定,如文献类型、机构的域名的类型等等。当然,不同的检索工具可能有自己特有的语法用法,我们应当学会灵活应用和变通不同的检索方法和技巧。

(五)筛选检索结果

通过选取关键词、构造检索式进行检索后,会得到众多检索结果,但在众多的检索结果当中,并不是每一条都是我们所需要的,所以我们要对检索结果作一些筛选。首先,依据结果的相关度,我们得到的检索结果是否与我们要检索内容的主题相关,是否与我们所需要的信息内容的层次、深浅度相匹配;其次,要看作者,即要看作者的权威性和影响力,这直接影响到我们检索到的文献信息的质量,对于一些没有显示作者的网站来说就缺乏一定的严谨性;再次,要看检索结果的时效性,往往最新的观点、新的理论、新的解决方案都来源于最新发表的文献信息。另外,要合理判断检索信息的公正性、准确性,避免使用错误的、缺乏科学论证的文献资料,等等。

(六)调整检索策略

经过前面的检索步骤得出的检索结果当中,如果还是没有理想的检索结果,就需要调整检索策略。首先,当检索结果太少的时候,则需要扩大检索范围。比如看检索词是否有近义词、同义词、上位词,将这些检索词用布尔逻辑语OR来连接,可以很好的扩大检索范围。再如,利用宽容的检索方法检索,像英文单词中经常会有一部分相同的部分,那些可变换的部分就可以用截词检索代替。还有英文名词的单复数形式,如果我们要找“女性”的相关资料,只输入“woman”检索就会漏检很多,还应该对它的复数形式“women”也进行检索。还比如英文的缩写形式,比如我们要找“慕课”相关的文献,如果我们只是输入“慕课”就可能会漏掉相关重要信息,我们还应该用它的缩写形式去检索,输入“MOOC”或者它的英文全称“Massive Open Online Courses”,这样分别去检索才不会遗漏掉重要文献资料。如果是因为我们的限制太多导致检索结果太少,那么可以考虑去掉一两个限制。因为每一个检索工具收录的范围和内容有一定的侧重点和有限性,所以我们也可以考虑更换不同的检索工具进行检索。其次,当检索结果太多的时候,我们也应该采取一定的措施缩小检索范围。例如用布尔逻辑运算符AND和NOT连接检索词,用AND多加几个检索词进行限定,或者用NOT排除一些限定;使用检索词的下位词进行检索;对一些专有名称,专业术语加上引号进行精确检索也可以缩小检索范围,从而实现更精确地检索;对检索词加上一定的限制,如对它的时间、机构、网站、文献格式等进行一个限制;除此之外,我们还可以利用检索工具本身所具备的二次检索功能来筛选检索结果,从而缩小检索结果。

(七)求助专业人士

如果通过上述途径仍然不能取得理想的文献信息资料,我们可以通过一些掌握现代技术的、具有丰富科学研究经验的专业人士来获取我们想要的文献信息。例如,有很多图书馆的网站主页上都会有在线咨询的功能,我们可以通过在线咨询的服务功能从图书馆员那里获取文献信息资料。很多图书馆都开通了馆际互借的功能,通过馆际互借,我们可以共享很多成员馆的文献信息资源,而这些庞大且宝贵的文献信息资源经常会被老师们和学生们忽略掉。再如,我们还可以求助一些在线的问题回答类的网站,像百度知道、知乎等,还有国外比较权威的网站像AIIExperts等,通过询问这些网站上的一些权威专家,也可以为我们的学习和研究提供宝贵的意见。

总之,互联网是一个非常开放的空间,如果善于应用,我们不仅可以贡献自己的经验和智慧来为他人服务,我们也可以共享他人的智慧来为我们自己的研究和学习服务。

四、结语

信息检索的最终目的是通过解决各种各样的问题,进而提高学习和科学研究能力。正如美国文献家赫伯特所言:“知识的一半,是知道到哪里去寻找它。明日的文盲,不是不能阅读的人,而是缺乏检索能力的人。”互联网时代文献信息检索能力比文献信息本身更重要。来自美国的非盈利性机构“今日信息科学网站”的一份报告“Information Literacy A Skill for Life”也在呼吁互联网时代新的技能,即媒体与信息素养。由此看来,信息素养的培养不光适用于高校信息素养教育,同时也具有世界性的重要意义。文献信息知识伴随着社会的发展而迅速更新和积累,高校应强化对信息检索的指导,提高信息检索能力,助力高校教学和科学研究。

五、参考文献

[1]陈振标.文献信息检索、分析与应用[M].北京:海洋出版社,2016:19.

[2]陆和建,姜丰伟.新信息环境下高校信息检索课教学方式的优化策略[J].大学图书馆学报,2015(2):96—99,112.

[3]万爱群,杨红.浅谈开设《信息检索与利用》课程的必要性[J].广西质量监督导报,2007(6):105—118.

关于股票的信息检索论文

我汗。。。。。~晚上要交了

你去找巴菲特

...该不会是证券投资选修课的学生吧。

论文:论资本市场开放对中国股市的影响论文写作[摘要]伴随着中国经济市场不断的对外开放,中国经济的不断发展,股票市场也从无到有,不断壮大的发展起来。股市的发展与资本市场的开放程度密切相关,随着我国资本市场开放程度的不断放大,外资对中国经济的影响也越大,对中国的股票市场形成压力。中国证券如何面对世界的挑战,在这种情况下,作为一个国家经济晴雨表的股票市场发展就显得特别的重要起来。本文讨论了资本市场开放对中国股市的影响,对历史资料文献加以分析并提出建议。[关键词]市场经济资本市场股票市场一、目前我国股票市场的现状截至2007年8月9日收盘,沪深股市总市值首度突破21万亿大关,总市值合计为211491亿元,而2006年GDP总量为210871亿元人民币,我国股票市场的总市值首次超越GDP,2007年上半年我国GDP总量为106768亿元。根据沪深两个证券交易所的最新统计数据显示:截至8月9日收盘,上海证券交易所总市值为163648亿元,流通市值46843亿元;深圳证券交易所总市值为47817.48亿元,流通市值为23989.06亿元。到目前为止,泸深股票账户总数已经超过14000万,占人总总数的10%以上,这在以前是不可想象的。我国股票市场发展虽然很快,但股市对民生问题的影响也是显然的。股票市场有一亿四千万账户,也就是说它的涨跌将关系到一亿多个家庭的生活了。二、资本市场开放度的演变过程根据我国政府对WTO承诺,我国证券对外开放的内容主要包括:1.外国证券机构可以(不通过中方中介)直接从事B股交易。2.外国证券机构驻华代表处可以成为所有中国证券交易所的特别会员。3.允许外国机构设立合营公司,从事我国国内证券投资基金管理业务,外资比例不超过33%;加入三年内,外资比例不超过49%。4.加入后三年内,允许外国证券公司设立合营公司,外资比例不超过三分之一。合营公司可以(不通过中方中介)从事A股的承销,从事B股和H股、政府和公司债券的承销和交易,以及发起设立基金。5.允许合资券商开展咨询服务及其它辅助性金融服务,包括信用查询与分析,投资于有价证券研究、咨询,公开收购及公司重组等;对所有新批准的证券业务给予国民待遇,允许在中国设立分支机构。入世以来,随着证券市场开放承诺的一步步兑现,资本市场改革逐步推进,2002年底,中国证监会颁布并实施《合格境外机构投资者境内证券投资管理暂行办法》,经过有关方面近半年的周密准备,QFII制度于2003年年中正式启动。截至2006年12月底,共批准成立7家外资参股证券公司;共成立24家中外合资基金公司,占成立基金公司数量的42.86%。截至2007年1月31日,68家境外证券经营机构取得外资股业务资格。至此,我国资本市场的开放领域形成了从加入世贸组织协议框架下的证券业和基金业的开放,到外资直接参与国有产权和非流通股权的并购转让市场,再到允许合格的境外机构投资者直接投资A股市场等渐次展开的全方位开放局面,中国资本市场的每一个环节和组成部本基本上都为外资进入建立了政策和制度的通道。资本市场的开放包括两个方面,一方面是允许外国资本进入国内的难易程度,另一方面是允许进入国内的外国资本的大小.经济全球化是一种浪潮也是一种趋势,中国作为一个经济实体也将高度纳入到其中,资本市场也将高度开放.随着资本市场开放程度的提高,国外资本对我国的经济实体也产生越来越重要的影响,在股票市场上优为明显。三、改革开放程度对股票市场的影响改革开发以来,我国国民经济的对外依存度大大提高,国际金融市场动荡会导致出口增幅下降、外商直接投资下降,从而影响经济增长率,失业率随之上升,宏观经济环境的恶化导致上市公司业绩下降和投资者信心下降,最终使证券市场行情下跌。其中,国际金融市场的动荡对外向型上市公司和外贸行业上市公司的业绩影响较大,对其股价的冲击也最大。1.金融安全方面的影响。在金融安全方面,股票市场并没有像外汇市场那么惹眼。但我们并不应该忽视它在金融安全方面的影响。中国股票市场现在虽然足够大,国家行政干预强,但明显存在很多的漏洞,以前,国际资本流动受到不同程度的限制,国际金融市场结构比较简单,国际性的金融投机的形式较为单一。但是,80年代特别是90年代以来,随着国际资本流动的自由化和国际金融市场结构的复杂化,机构投机者不但可以同时在多个金融市场上进行投机,而且在每个金融市场上还可以同时进行多个金融品种的投机,从而使投机带有立体的性质,从而使投机手段更加隐蔽和复杂。加入WTO后,国际投机者同样可以对我国的金融领域进行冲击,我国在经济方面的开放越大,冲击也就可能越大。但由于最富有投机性的商品是股票和房地产,现代泡沫经济最典型的表现是因投机而造成的股票价格和房地产价格的急剧上升。由于机构投机者一般不介入实物资产的投机,股票市场的泡沫便成为机构投机者掀起投机风潮的理想时机。机构投机者对泰国和东南亚国家发起金融攻击,与这些国家和地区存在泡沫经济有着密切的关系。2.直接影响了股票市场的发展进度。中国股市将迎来与国际惯例全面接轨的时代。股票市场是一种具有共同规律、通行共同语言的投资场所,其优点和缺点、长处和短处,都在相当大的程度上来源于其内在的本性和特有的规律。由于上市公司的股份被人为地分割为国有股、法人股和个人股,各类股的价格和流通方式又都完全不同,这使得上市公司转轨不转制问题日益突出。伴随中国股票市场的逐步对外开放,股市将迎来与国际惯例全面接轨的时代;封闭式的股市发展格局即将被打破,中国股市将随我国加入世界贸易组织而迎来逐步开放的时代。十多年来,中国股市(特别是A股市场)是在一种封闭的状态下运行的,随着经济全球化的发展和中国加入世界贸易组织以及QFII制度的启动,这种封闭的股市发展格局将会被逐步打破,伴随着人民币资本项目下可自由兑换的实现,股票市场的对外开放的领域和步伐将逐步加宽、加快。3.外资进入方面的影响。2006年,QFII走完了在中国证券市场上三年的试点历程,迎来了转折之年。截至2006年12月末,QFII中国A股基金的最新资产规模达到37.72亿美元,直逼300亿元人民币。QFII在中国的市场影响力正与它的规模一起与日俱增。但是,郎咸平指出,中国股市引进QFII的原因是认为他们是做长期投资和基础研究的,想借此引进先进的投资理念,可是,其实QFII是比国内庄家还要厉害的庄家,是互相勾结的庄家。四、结论与建议2006年以来,中国证券市场规模扩大、交易活跃,其总市值已经位列世界第四。研究表明,至2020年,中国证券市场的总市值会达到650万亿元,届时将成为全球最大资本市场。虽然发展迅猛,但中国证券市场仍存在结构失衡、证券产品供应不足等问题,具体如下:1.我国证券市场目前是股本结构畸形的市场。上市公司一股独大,公司治理结构急需改善。流通股与非流通股并存,使占总股本三分之一的流通股面对巨大压力,股价畸高。如果一旦证券市场全面开放,不仅因国内股票缺乏投资价值难以吸引国际证券资本,而且中外市场在股价上的巨大落差,必然导致国内股价大跌。同时,由于我国市场上没有做空机制,投资者难以避险。2.我国证券市场尚处于国际化的起步阶段。商品、货币、资本是资源配置的三个层面。一个国家的开放顺序是从贸易开放到货币市场开放,再到资本市场开放。也就是说,在经历贸易自由化、汇率和利率自由化之后,证券市场才可能实现自由化。如果将开放的时序错乱,将会潜伏爆发金融危机的巨大风险。目前我国经济的开放程度尚处于商品市场国际化接近结束并向货币市场国际化转化阶段。短时间内不可能指望利率、汇率、资本项目的自由化来支持证券市场的全面开放。3.我国证券市场规模还不能有效抵御市场开放风险。相应的金融资产规模支持相应规模的证券市场开放。面对强大的国际资本,特别是国际资本快速的进出,以我国证券市场现有规模尚不具备抵御巨大冲击的能力。4.人民币尚未在资本项目下自由兑换制约证券市场开放进程。人民币实现在资本项目下自由兑换的进程事关中国证券市场开放进程。在人民币尚未自由兑换的情况下证券市场不可能实现全方位开放。5.我国证券监管体系有待完善。证券市场开放需要更高的监管水平,尤其是监管者对跨国界的交易行为的本质和特征有很强的评价能力,而且还需要有效、务实的国际合作。我国作为一个发展中国家,应当根据国际国内形势和条件的变化自主地调整证券市场对外开放的具体措施,有步骤、分阶段地推进开放进程,最大限度地避免证券市场开放对我国产生的负面影响,也就是说应当选择一种渐进式的开放策略。面对中国证券市场目前出现的与国际联系增强、受外部环境影响加大的情况,我国应尽快建立风险监管和协调机制。参考文献:[1]本杰明·格雷厄姆戴维·多德:证券分析.海南出版社,2006年6月[2]曹凤歧刘力姚长辉:证券投资学.北京大学出版社,2007年6月[3]中国证券业机构:证券市场基础知识.中国财政经济出版社,2007

信息检索的论文题目

信息检索技术论文 –基于网格的面向专业内容的Web信息检索1 引言近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。2.1 集群系统的设计由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法:XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。图22.2 网格中间件的设计图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下:(1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。(2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。(3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。(4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。(5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。文秘杂烩网

“信息资源共享”课程检索报告一 检索课题数字图书馆个性化服务研究现状二 主题分析随着数字图书馆建设和网络通讯技术的高速发展, 数字资源越来越多, 而人们获取所需资源的可能性则越来越少, 用户需求的专业化、垂直化激化了数字图书馆大量信息数据库与用户需求之间的矛盾。1999 年, 美国图书馆与信息技术联合会(LITA) 10 位著名的数字图书馆专家在研讨会上, 把个性化定制服务列为数字图书馆发展的7 大趋势之首。目前, 数字图书馆个性化的信息服务已经开始得到普遍的关注, 人们正在为提供个性化信息服务做出努力的尝试。数字图书馆个性化服务是近几年数字图书馆研究中受到关注较多的一个研究方向,数字图书馆个性化服务是基于信息用户的信息使用行为,习惯,偏好,特点及用户特定的需求,来向用户提供满足其个性化需求的信息内容和系统功能的一种服务。关于数字图书馆个性化服务研究现状,该主题涉及到:(1)数字图书馆个性化服务的有哪些介绍(2)数字图书馆个性化服务的模式有什么(3)数字图书馆个性化服务的技术研究有哪些(4)数字图书馆个性化服务研究的最新进展(2005年-2007年)三 检索情况(一)检索工具1.维普中文期刊数据库 (1989-2007)2.中国期刊全文数据库 (1994-2007)(二)检索过程1.检索途径 关键词 题名 主题词2.检索用词 数字图书馆 关键词或题名、主题词 个性化服务 关键词或题名、主题词3.检索策略(1)维普中文期刊数据库(题名或关键词=数字图书馆)*(题名或关键词=个性化服务) 在高级检索中选择题名或关键词字段,输入“数字图书馆”和“个性化服务”两个检索词进行限定,年代限定在2005-2007年,共检索出78条记录。(2)中国期刊全文数据库(题名或关键词=数字图书馆)* (题名或关键词=数字图书馆)在高级检索中选择篇名字段,输入“数字图书馆”与“个性化服务”,年代限定在2005-2007,共检出89条记录。四 检索结果分析(一) 检索结果经检索上述两个数据库,有关数字图书馆个性化服务的研究论文众多,现选出其中具有代表性,研究主题未重复的文献。1.中国期刊全文数据库(1) 数字图书馆个性化信息服务系统研究 刘燕平 图书情报工作 2006/S2(2) 数字图书馆个性化服务系统分类体系问题 叶红 科技信息(学术研究) 2007年13期(3) 浅析智能搜索引擎技术及其在数字图书馆个性化信息服务中的应用 王林廷 高校图书情报论坛 2006年01期(4)数据挖掘技术在数字图书馆个性化服务中的应用 朱冰冰 科技情报开发与经济 2006年24期(5)数字图书馆个性化信息服务发展研究 马维华 郑州大学学报(哲学社会科学版) 2006年06期(6) 智能推送技术在数字图书馆个性化服务中的应用 石岩 情报探索 2006年11期(7) 基于文本过滤的数字图书馆个性化服务技术 张帆 计算机工程与应用 2006年31期(8) 数字图书馆信息门户的个性化服务模式 何平 中国信息导报 2006年08期(9) 网络信息技术下的数字图书馆个性化服务 张丹 林区教学 2006年07期(10)MyLibrary——数字图书馆个性化服务新趋势 杨华 农业图书情报学刊 2006年08期(11)基于Web服务组合的数字图书馆个性化动态定制服务构建 张晓青 情报学报 2006年03期(12)校园网中数字化图书馆个性化服务的实现 朱江峰 科技经济市场 2006年01期(13)数字图书馆的个性化推送服务 白雪松 图书馆杂志 2005年09期(14)Web日志挖掘在数字图书馆个性化服务中的应用 王英培 科技情报开发与经济 2005年22期(15)国内外数字图书馆个性化信息服务系统的功能与特征比较研究 张俊 情报理论与实践 2005年06期(16)基于知识管理的数字图书馆个性化服务机制研究 郭琳 四川图书馆学报 2004年05期2.维普中文期刊数据库(17)基于Web挖掘的数字图书馆个性化技术研究 王艳 张帆 情报杂志 2007年1期(18)基于文本过滤的数字图书馆个性化服务技术 张帆 杨炳儒 计算机工程与应用 2006年31期(19) 数字图书馆信息门户的个性化服务模式 何平 陈有志 中国信息导报 2006年8期(20)个性化服务深度与广度解决方式探讨 刘月胜 数字图书馆论坛 2006年6期(21)个人数字图书馆模式的分析 石德万 李军 现代情报 2005年9期(22)数字图书馆个性化信息环境与服务构建 杜安平 韶关学院学报 2005年3期(23)数字图书馆个性化信息服务的技术实现 张云瑾 许春漫 农业图书情报学刊 2005年6期(24)个性化信息服务的模式研究及策略分析 杜春光 国家图书馆学刊 2005年2期(二) 检索结论文献一论述了个性化信息服务的涵义,阐述数字图书馆开展个性化信息服务的有利条件,国内外图书馆的有关研究开发状况,分析国内数字图书馆个性化信息服务系统应用实例,并时其工作流程,主要功能进行剖析,指出该系统目前存在的问题,提出改进对策。文献二围绕数字图书馆个性化服务系统分类体系问题展开探讨。首先,简要介绍数字图书馆个性化服务系统的主要内容,包括其定义和服务内容。其次,从用户分类和信息分类两个方面阐述目前数字图书馆个性化服务系统存在的问题。用户分类主要存在的两个问题,根据用户特点分析提出相应建议。信息分类问题从五个方面进行讨论,列举数字图书馆个性化服务系统页面进行分析,提出解决方法。文献三介绍了智能信息检索的实质和发展方向,是智能搜索引擎技术的不断改进和广泛应用。以这一技术为基础构建数字图书馆的个性化服务系统,是数字图书馆信息服务的现实需要。文章论述了当前搜索引擎存在的不足,概述了智能搜索引擎的原理机制及其优越性,探讨了该技术在数字图书馆个性化服务中的应用。文献四阐述了数字图书馆的定义,介绍了个性化服务的工作原理和国内外个性化服务系统的现状,探讨了分类模型、关联模型、序列模型、聚类模型、回归模型以及时间序列模型的原理,对如何把其用在数字图书馆的个性化服务上以描述用户需求,提出了建议。文献五介绍了数字图书馆个性化信息服务是当今图书馆发展的重要趋势,目前国内外都已有比较成熟的数字图书馆个性化信息服务系统,服务方式及其功能也多种多样,但是探索图书馆个性化信息服务有效模式的任务仍很艰巨。文献六介绍了智能推送技术和个性化服务的内容,讨论了将智能推送技术应用于数字图书馆个性化服务,以及智能推送技术存在的优势与不足。文献七提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献八试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展建势。文献九简述了数字图书馆个性化服务的内涵,分析了网络信息技术对其各项服务的支撑,并通过My Library实例对这些具体技术的集成化运用加以探讨,为构建可互操作的数字图书馆个性化服务系统提供参考。文献十就My Library(我的图书馆)的产生,及其概念、类型、特征、原理、功能等诸方面做了简要的论述,并介绍了它在国内外的发展现状,指出其今后的发展方向。文献十一介绍了Web服务组合是一种利用现有Web服务动态构建新的能满足用户需求的复杂Web服务的Web服务技术。将数字图书馆各种资源组件、应用组件、功能组件和管理组件进行Web服务描述,人们就能利用Web服务组合技术根据用户的个性化需求实现对不同数字图书馆各种组件的动态集成,从而实现开放环境下数字图书馆的个性化动态定制服务。本文讨论了基于Web服务组合的数字图书馆个性化动态定制服务的基本系统架构、构建模型,并对构建过程中需要注意的几个问题展开了讨论。文献十二介绍了数字化图书馆建设是图书信息化发展的必然,而个性化服务能够根据用户不同的特点,提供切实的服务,以更好地为读者服务。本文对数字化图书馆的个性化服务进行了讨论,分析了关键的实现技术,并给出了部分核心代码。文献十三介绍了个性化推送服务是数字图书馆研究的热点,也是建设数字图书馆的关键问题之一。本文针对各种不同的信息形式提出了相应的实现方案,并对实际操作中的几个难点事项做了简要讨论。文献十四介绍了Web日志挖掘的基本概念和过程,指出通过对读者在数字图书馆服务中留下的日志信息进行挖掘,可以实现个性化服务,更好地满足不同类别读者的需求。文献十五从个性化信息服务的概念入手,介绍了个性化信息服务的几种类型,包括分类定制服务、信息推送服务、智能代理服务和垂直门户服务等,并介绍了目前国内外若干图书馆已经开展的个性化信息服务的典型应用实例。在此基础上总结了这些个性化信息服务系统的共同功能与特征,并进行了一些比较研究。文献十六介绍了构建一个基于信息过滤技术的信息服务系统是数字图书馆实现个性化信息服务的有效手段。通过对信息过滤技术概念的研究和与信息检索概念的比较,抽象出此类系统的一般模型,并沿用查全率和查准率评价信息过滤的效果,最后分析了个性化信息服务系统实现的关键技术。文献十七提出一种基于Web挖掘技术的个性化实现策略,针对数字图书馆资源的文献,改进了经典的算法,分别从Web内容挖掘、结构挖掘和日志挖掘出发,建立用户动态的兴趣特征模型,使之更具有实用性和针对性。文献十八提出在数字图书馆的应用中,个性化服务可以为用户提供符合其兴趣的检索结果。提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献十九试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展趋势。文献二十提出数字图书馆的个性化服务决定了它在借助网络技术的基础上向学科馆和联盟制方向发展,以提高资源的利用率和解决个性化服务的深度与广度问题。文献二十一根据个人数字图书馆文献信息资源存储位置的不同.把个人数字图书馆划分为远程个人数字图书馆和本地个人数字图书馆两种模式,着重对这两种模式的个人数字图书馆的功能特点进行比较分析。文献二十二提出构建数字图书馆的个性化信息服务实际上就是要在数字图书馆上实现个性化资料、个性化检索、个性化过滤、个性化服务等四种环境.数字图书馆可以开发个人图书馆、检索帮助、个性化信息咨询、信息代理、垂直门户等多种个性化信息服务。文献二十三阐述了数字图书馆个性化信息服务的概念、研究与应用的现状,并分析了实现数字图书馆个性化信息服务所需的技术。文献二十四强调个性化信息服务在数字图书馆中有其特定的定义,也是数字图书馆发展中的必需。根据网络环境下图书馆信息服务的内容及用户行为的不同,可以有多种个性化服务模式,有策略地开展服务。(三) 结果分析 从2005-2007年所发表的关于图书馆学个性化服务的论文可以看出,研究的主题和方向主要集中在以下几个方面:1. 数字图书馆个性化服务的概念研究。在中国期刊全文数据库检索到的89篇文章中,有40篇是论述图书馆个性化服务概念的研究。在这些文章中作者都对数字图书馆个性化服务概念有自己的认识,对于这个概念的研究也越来越深入。2. 数字图书馆个性化服务的方式研究。对于数字图书馆个性化信息服务模式, 也在摸索实践中。目前有以下几种方式:(1)信息分类定制服务方式。分定制是指信息用户可以按照自己的目的和需求,在某一特定的系统功能和服务形式中,自己设定信息的资源类型、表现形式,选取特定的系统服务功能等。(2)信息推送服务方式。是运用推送技术(push technology)来实现的一种个性化主动信息服务的方式。(3)信息智能代理服务方式。它是一种能够完成委托任务的计算机系统,能模仿人的行为执行一定的任务,不需要或很少需要用户的干预和指导。通过跟踪用户在信息空间中的活动,自动捕捉用户的兴趣爱好,主动搜索可能引起用户兴趣的信息并提供给用户。(4)信息垂直门户服务方式。通过汇聚网上某一特定专题信息资源并对其进行挖掘及加工,以满足用户基于专业的深入的信息需求。(5)信息帮助检索服务方式。如何帮助用户进行高效的信息检索也是当今数字图书馆信息服务向纵深发展的一个重要内容。(6)数据挖掘服务方式。从数据库中发掘人们感兴趣的知识,这些知识是隐含的、潜在的,目的是帮助用户寻找数据间潜在的关联。(7)信息呼叫中心服务方式。主要利用电话、传真等方式来服务客户,处理简单的呼叫流程。在这些方式中,现在比较热门的个人图书馆(My library)是上述部分个性化服务方式的具体应用,是当前开发应用较为成熟的图书馆个性化服务模式系统,也是一个完全个性化的私人信息空间。3.数字图书馆个性化服务关键技术研究。数字图书馆个性化信息服务的应用技术, 集现代信息技术之大成。它包括推送技术、智能代理技术、智能搜索引擎技术、网页动态生成技术、数据挖掘技术、信息过滤技术、过程跟踪技术、安全身份认证技术、数据加密技术等, 这些都可以为数字图书馆的个性化服务方式提供技术支持。4.国内外数字图书馆个性化服务现状研究。还有一部分论文是主要介绍当今国内外数字图书馆个性化服务的现状,通过介绍这些先进的技术和模式来指导我国数字图书馆个性化的服务。5.其他研究。除了数字图书馆个性化信息服务的概念、模式、技术和国内外研究现状外, 数字图书馆个性化信息服务的研究还就数字图书馆个性化信息服务的模型构建、用户评价、馆员角色的变化、存在的问题与对策等作了深入探讨。综上所述,这两年国内有关数字图书馆个性化服务的研究可谓是硕果累累,随着对数字图书馆个性化信息服务理论研究和实践的不断深入,我国数字图书馆个性化信息服务一定能够真正实现以用户需求为中心, 利用数字图书馆信息资源开展不同层次的、多种类型的、满足用户个性需求的有效信息服务。五 检索情况总结由于这个学期开了数字图书馆这门课,对于数字图书馆有一些简单的了解,特别是对个性化信息服务这部分内容有兴趣,课本上涉及得比较少,所以就把这个内容作为了检索主题。在选择检索工具时选择了平时最常用的两个检索工具,本来还选用了中文Google,想找一下国内在研究这个主题的项目或者网站,但是检索到的内容数量实在太庞大,而且检索到的大量结果都来自各个数据库的论文,最后就放弃了使用搜索引擎。在构造检索策略时,因为该主题比较简单,不用构造很复杂的检索式,就选择了“数字图书馆”和“个性化服务”作为关键词,开始有想到是不是需要使用与“数字图书馆”概念相近的“电子图书馆”或者“虚拟图书馆”,但考虑到国内现在已经比较统一的使用“数字图书馆”这个概念,使用其他两个词检索到的文章不多,所以还是以数字图书馆为重点。检索途径选择了关键词,题名以及主题词,在使用中国期刊全文数据库进行检索时,一开始是使用关键词作为检索途径,检索出423条记录,但是有很多文章与该主题相关度不高,所以采用了篇名作为检索途径,这样两个词同时限定在文章题名中,检索的相关度就非常高,但也可能会造成漏检。觉得自从学习检索课程以来,检索最难的就是检索式的构造,检索式构造的好与坏,直接关系到检索结果的好坏。维普提供的字段有题名或关键词字段,使用高级检索将两个检索词都限定在这个字段中,检索出来的结果相对比较精确。检索完成之后,接下来的工作就是分析检索结果,这其实也是难度挺大的一项任务,要看完150几篇文章不是一件简单的事,文摘和篇名这个时候就帮了很大的忙了,一般看文摘可以略知一二,需要了解详细内容的再打开全文阅览。从文章中归纳出研究的主要内容和方向,找出比较有特色而又不重复的内容,最后再整理出结论,这就是我整个辛苦但却有趣的检索过程。通过完成这次作业,首先就是复习与巩固了以往的知识,平时虽然也经常在进行检索,但是严格按照检索步骤进行的就不太多,也没有这么有条理的对整个检索过程做一个安排,并按照计划一步一步的执行,直到完成检索结果。其次就是以往做作业都是完成老师布置的具体任务,有些题目比较简单或是比较有兴趣的检索起来还好,有些比较深奥的主题做起来真的十分困难,没有专业背景,拿到题目和检索出来的结果就觉得十分茫然。而这次老师让我们自己选择题目,我就可以从自己的兴趣和想了解的领域下手,这样完成作业的过程也不再那么枯燥,兴致自然也大了很多。还有最重要的是,做作业的目的不只是完成作业,更重要的是有收获,巩固了检索知识自不用说,通过这次阅读大量文章,也算对所检索的主题有了一个大概的认识和了解,增长了知识,开阔了视野,可是说从完成这次检索作业中的确是收获不少。

:信息检索试题 《信息检索》期末考试题 班级 舱室3091 姓名:颜二磊一、选择题(1分*38题) 1、根据国家相关标准,文献的定义是指“记录有(A )的一切载体”。 A.情报 B.信息 C.知识 D.数据 2、以作者本人取得的成果为依据而创作的论文、报告等,并经公开发表或出版的各种文献,称为( B ) A.零次文献 B.一次文献 C.二次文献 D.三次文献 3、文摘、题录、目录等属于( B ) A.一次文献 B.二次文献 C.零次文献 D.三次文献 4、手稿、私人笔记等属于( C)文献,辞典、手册等属于( )文献 A.一次,三次 B.零次,二次 C.零次,三次 D.一次,二次 5、按照出版时间的先后,应将各个级别的文献排列成( A ) A.三次文献、二次文献、一次文献 B.一次文献、三次文献、二次文献 C.一次文献、二次文献、三次文献 D.二次文献、三次文献、一次文献 6、( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。 A.零次文献 B.二次文献 C.一次文献 D.三次文献 7、一次文献、二次文献、三次文献是按照( A )进行区分的。 A.内容的公开次数 B.原创的层次 C.印刷的次数 D.评论的次数 8、从文献的( C )角度区分,可将文献分为印刷型、缩微型等。 A.内容的公开次数 B.载体类型 C.出版类型 D.公开程度 9、具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D ) A.图书 B.会议文献 C.学位论文 D.期刊 10、利用文献后面所附的参考文献进行检索的方法称为( A ) A.追溯法 B.直接法 C.抽查法 D.综合法 11、中国图书馆图书分类法的分类号采用了( A ) A.拼音字母+数字 B.英语字母+数字 C.全部拼音字母 D.全部数字 12、( D )是报道文献出版或收藏信息为主要功能的工具。 A.题录 B.索引 C.文摘 D.目录 13、按照顺序表述文献检索常用的五个步骤是( D ) A.明确要求和分析课题,选择检索系统,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略 B. 明确要求和分析课题,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略选择检索系统 C. 明确要求和分析课题,实施检索以及调整检索策略选择检索系统,获取原文,确定检索途径和检索策略 D. 明确要求和分析课题,选择检索系统,确定检索途径和检索策略,实施检索以及调整检索策略,获取原文 14、课题“计算机在情报检索中的应用”的中图法分类号及类名为( D ) A.TP3计算机技术 B.TP399计算机技术的应用 C.G250图书馆学 D.G252.7情报检索 15、逻辑运算符包括( D ) A.逻辑与 B.逻辑或 C.逻辑非 D.A,B和C 16、如果希望查找“玻璃复合薄膜的研究”这个课题相关的文献,较好的检索词应该是( D) A.玻璃,复合,薄膜,研究 B.玻璃,复合,薄膜 C.复合,薄膜,研究 D.玻璃,薄膜,研究 17、记录是对某一实体的全部属性进行描述的结果,在全文数据库中一条记录相当于( C ),在书目数据库中,一条记录相当于( ) A.一条文摘,一篇完整的文献 B.一条文摘,一条题录 C.一篇完整的文献,一条题录或文摘 D.一条题录,一条文摘 18、逻辑“与”运算符是用来组配(D ) A.不同检索概念,用于扩大检索范围 B.相近检索概念,扩大检索范围 C.不同检索概念,用于缩小检索范围 D.相近检索概念,缩小检索范围 19、具有概念交叉限定关系的两个检索词之间应该使用( C) A.逻辑或 B.逻辑非 C.逻辑与 D.优先 20、逻辑“或”运算符是用来组配( B ) A.不同检索概念,用于扩大检索范围 B.相近检索概念,扩大检索范围 C.不同检索概念,用于缩小检索范围 D.相近检索概念,缩小检索范围 21、具有相近含义的同义词或同族词在构成检索策略时应该使用(A )运算符予以组配。 A.逻辑与 B.逻辑或 C.逻辑非 D.位置 22、若想排除某概念,以缩小检索范围,可使用( B )运算符 A.逻辑与 B.逻辑非 C.逻辑或 D.位置 23、右截词的含义是检索所有含有与检索词( A )的记录 A.前方一致 B.中间一致 C.后方一致 D.与输入的检索词完全一致 24、就中国学术期刊数据库(CNKI)的使用权限而言,(D )是不正确的。 A.从任何公网终端都可以访问其题录信息 B.从有访问权限的上网终端可访问其题录信息 C.从有访问权限的上网终端可访问其全文信息 D.从任何公网终端都可以访问其全文信息 25、《中国学术期刊全文数据库》中,( C )使用的优先算符是合理的。 A.(文学)*(翻译) B.(文学+小说)*(翻译) C. (文学+小说)*翻译 D.文学+(小说)*(翻译) 26、在《中国学术期刊全文数据库》中,不可以进行( D )检索 A.逻辑与 B.逻辑或 C.逻辑非 D.位置 27、《中国学术期刊全文数据库》提供的文献内容特征检索途径有( B ) A.机构 B.篇名/关键词/摘要 C.中文刊名 D.作者 28、《中国学术期刊全文数据库》提供的文献外表特征的途径有( B ) A.关键词,篇名 B.机构,中文刊名 C.作者,篇名 D.文摘,中文刊名 29、查找南通航院师生2009年发表论文被《中国学术期刊全文数据库》收录情况,可选择的检索策略是( D ) A.作者机构字段:南通航运职业技术学院 并且 作者字段:师生 并且 年份字段:2009 B.作者机构字段:南通航运职业技术学院 并且 年份字段:2009 C.作者机构字段:南通 并且 航院职业技术学院 并且 年份字段:2009 D.作者机构字段:南通航院职业技术学院 并且 年份字段:2009 30、《中国学术期刊全文数据库》中选择作者字段,输入“方志”,选择“模糊匹配”控制,系统给出的检索结果不可能包含有作者姓名为( B ) A.方志成 B.成方志 C.方志 D.方成志 31、若想在《中国学术期刊全文数据库》中提高检索结果的查准率,可使用(A ) A.在结果中检索 B.优先算符 C.或者 D.位置检索 32、《中国学术期刊全文数据库》中,在单逻辑检索的文摘字段中输入检索词“经济”检索的基础上,再在篇名字段中输入“全球化”,选“在结果中检索”再行检索。这个检索过程可以策略表示为( )。两次检索后,检索范围( B )了。 A.文摘字段:经济*篇名字段:全球化,扩大 B. 文摘字段:经济*篇名字段:全球化,缩小 C. 文摘字段:经济+篇名字段:全球化,扩大 D. 文摘字段:经济+篇名字段:全球化,缩小 33、《中国学术期刊全文数据库》给出的检索结果,为( D ) A.仅题录 B.仅文摘 C.仅全文 D.题录、文摘和全文三种 34、《中国学术期刊全文数据库》的全文检索结果( D ) A.直接在屏幕浏览无需全文浏览器,但下载存盘再阅读需全文浏览器 B.直接在屏幕浏览无需全文浏览器,下载存盘再阅读也无需全文浏览器 C.直接在屏幕浏览需全文浏览器,但下载存盘再阅读无需全文浏览器 D.直接在屏幕浏览需全文浏览器,下载存盘再再阅读也无需全文浏览器 35、CNKI数据库的全文阅读格式有两种,其中一种是( C ) A:Articles Image_PDF , B:Aeticles Lmage , C: CAJ. 36、万方数据库使用布尔逻辑算符 and / or / not .其中A and B表示 ( A ) A:查找包括A和B的文献,B;查找A与B其中之一的文献, C:查找有A无B的文献。 37、《中图法》中基本大类由22个字母表示,“E”表示的是(C ) “O”表示的 是 ( )。 A:经济、军事, B:自然科学、文学, C:军事、数理科学和化学 D:经济、外语 38、南通航运职业技术学院图书馆电子图书系统有( C ) A:书生之家、古腾堡计划,B:超星数字图书馆、Ebrary电子图书,C:读秀电子图书,超星电子图书,D:万方数据,畅想之星二、判断题(1分*32题)(错“x”,对“v”)文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体( V) 文献知识的内容与其记录方式、载体材料无关( V ) 文献有知识内容、信息符号和载体材料三个不可分割的基本要素构成(X ) 一次文献是产生二、三次文献的基础,是检索利用的主要对象(V ) 从零次文献、一次文献到二次文献,再到三次文献,是一个知识内容由分散到集中,由无组织到系统化的过程( V ) 按照加工深度不同区分,文献可以分成零次、一次、二次核三次文献(V ) 文献检索的本质是用户的文献需求与存储在文献集合中的文献内容进行匹配的过程( V ) 文献检索是一种相关性检索,检索结果与检索人员的检索技巧等有关( V) 近一两个月内新发表的文献可以通过浏览图书馆阅览室现期期刊的方法获取。( V ) 直接检索法是通过各种检索工具或数据库查找文献的方法(X ) 作者途径是按照文献信息所包含的作者信息,利用作者姓名进行检索的途径( V ) 联合目录反映多个图书馆的书刊订阅收藏情况。( V) 目录是将图书、报刊等文献中论文的篇目按照一定的排检方法编制而成,供人们查找篇目出处的工具( X ) 检索语言是用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。( V ) 分类法是根据科学学科之间的逻辑归属关系,采用层次型或树形结构,列举人类所有的知识类别,并对每一知识分别标以相对固定的码,从而形成的类表(V ) 关键词直接采用作者在文献中使用的语言,是一种自然语言性质的主题语言( V ) 目前数据库已具备智能思考能力,故在检索时无需人工扩展概念。( X) 将“彩色电视机”拆分成“彩色”AND“电视机”进行检索,所得结果的数量比拆分前多.( V ) 查全率是指检索出的符合课题需要的文献与检索出的相关文献量之比。(X) 查准率是指检索出的符合课题需要的文献与系统中含有的相关文献量之比( X ) 《中国学术期刊全文数据库》是以收录国内学术类核心期刊和专业特色期刊为主的全文数据库.(V ) 《中国学术期刊全文数据库》的分类专辑起着选择检索范围的作用。(V) 《中国学术期刊全文数据库》分类专辑每次能选择多个专辑。(V ) 《中国学术期刊全文数据库》的导航浏览只有中图法浏览。(X) 《中国学术期刊全文数据库》的检索策略不可使用优先符“()”。( X) 使用《中国学术期刊全文数据库》的“词频”控制,可以提高检索结果的查准率。(V ) 《中国学术期刊全文数据库》“在结果中检索”起到的事逻辑“或”的作用。(X ) 《中国学术期刊全文数据库》统一检索文本框中可以输入含有布尔逻辑算符的表达式( V) 《中国学术期刊全文数据库》的“在结果中检索”最多可以进行两次。(X ) 在《中国学术期刊全文数据库》中将“打印机”扩展成“彩色打印机”后,可以增加检索结果。( X ) 在《中国学术期刊全文数据库》中,需要预先下载安装相应浏览器才可浏览CAJ格式的原文。(V ) 《中国学术期刊全文数据库》的原文可以转不转换成文本。(X ) 三、简答题:(10分*3题) 1、信息、知识、情报、文献的概念? 答:信息是事物现象及其属性标识的集合,信息是知识的“子集或基石”,知识是信息的应用和生产性使用,文献是记录知识的一切载体,即用文字、图像、符号等手段记录人类知识的各种载体,情报是一种普遍纯在的社会现象,人们在物质生产和知识生产的实践活动中,源源不断地创造、交流与利用各种各样的情报。 2、信息(文献)检索的方法与途径,详细论述检索步骤? 答:方法:(一)时序检索法:·顺时序法·逆时序法·分段法 (二)跟踪检索法(三)综合检索法 途径:(一)时序途径(二)地序途径(三)分类途径(四)主题途径(五)题名检索途径(六)责任者途径 步骤:(一)检索课题分析。首先分析检索目的是什么?是深入研究还是一时学习解难析疑之需?其次分析检索内容范围的广度及其所需文献的时间跨度有多长?等等。例如,查语词解释或成语典故的出处,与查有关事实、数据及相关参考文献这两种不同层次的课题,其所需文献及所用工具书刊是有很大区别的。(二)制定检索方案。检索方案是指导检索实践的行动纲领。内容包括对课题研究所需文献及工具书刊的文献环境进行调查,其中有哪些文献可就近利用?哪些可查到最切题的文献?(三)选用工具书刊(四)确定检索途径和检索方法。(五)进行检索。有新的发现应及时修改方案,拓宽思路,把课题研究提到更深的层次。(六)检索效果评估。这是对检索过程的初步总结。如有失误,应重新检索,以求最佳效果。 3、简述“超星电子图书馆”、“中国学术期刊全文数据库(CNKI)”、“维普中文科技期刊数据库”收藏资源的特点。答:超星电子图书馆:收录的电子图书内容丰富,包括经典理论、哲学、社科、经济、语言文字、文学、数理化、生物、工业技术、计算机等50余个学科门类,现拥有中文电子图书80万种,论文300万篇,全文总量4亿余业,并且每天仍在不断地更新与增加中国学术期刊全文数据库:该库的产品分为十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。个专辑分为若干专题,共168个专题。维普中文科技期刊数据库:按照《中国图书馆分类法》进行分类,所有文献被分为8个专辑:社会科学、自然科学、工程技术、医药卫生、农业科学、经济管理、教育科学和图书情报。8大专辑又被细分为36个专题请采纳答案,支持我一下。

关于信息安全方面的小论文题目

如下:

网络安全协议的形式化自动验证优化研究

基于大数据的工控网络态势感知技术研究与应用

基于随机森林的工控网络安全态势要素提取方法研究

基于主机日志的恶意登录异常检测方法研究

融合社交网络威胁的攻击图生成方法研究

基于卷积神经网络的网络安全态势感知研究

基于lstm的电商平台对消费者消费数据信息的保护算法

基于卷积神经网络的网络入侵检测算法设计与实现

面向网络攻击行为的可视分析研究

基于贝叶斯网络和支持向量机的网络安全态势评估和预测方法研究

基于DBN与ELM算法的入侵检测研究

基于自动编码器的入侵检测系统研究与实现

基于机器学习的网络安全态势感知模型研究与实现

基于Java EE的远程安全评估系统的设计与实现

基于文本特征及DNS查询特征的非常规域名检测

面向防火墙漏洞的动态分析方法

异构无线网络能效和安全优化研究

连续时间Markov工业互联网安全性测度方法研究

基于改进的TWSVM工业控制系统入侵检测方法研究

基于改进深度森林的入侵检测方法研究

各种广告哈哈。。。。找你们还不如去知网下啊?密码学,网络攻防,信息管理都可以写,题目得找导师要,难道你们导师要你自个人想题目?太扯了吧

热心相助 开题报告参考模板XXXXXX学院毕业论文开题报告课题名称 手机无线联网安全技术及应用研究 学 院 电子信息学院 专 业 网络工程 班 级 BX0907 学 号 12 姓 名 XXX 指导教师 XXX 定稿日期: 2013 年 01 月 18 日 手机无线联网安全技术及应用研究摘要:从第一台计算机发明到现在短短的几十年内,计算机和网络使得人们的生活发生着巨大的改变。电脑上网方式发生了很大的改变,人们不在局限于通过网线接入网络,出现了各种无线网络。但随着手机技术的发展,人们开始使用手机来接入网络浏览网页,聊天,下载各种需要的事物等等。但是手机网络就如同计算机网络一样不是一个很成熟的,其中有着各种漏洞,黑客可以通过相关的漏洞来进行对手机用户的攻击。很多人通过手机下载各种java程序,而java程序中可能包含着木马病毒等等不利于手机用户的东西。本文重点进行手机上网安全,手机病毒的危害,黑客攻击手机的方法手段,以及对应的预防措施等等关键词:手机上网,网络安全,手机病毒,防范措施。1 文献综述 随着手机技术的日趋成熟,接入互联网轻松获得大量的信息已成为未来手机发展的必然趋势。而且随着配备Java功能的i模式手机登场,手机接入互联网更为便捷,势必会因此增加手机感染病毒的机会。由于通过网络直接对WAP手机进行攻击比对GSM手机进行攻击更加简便易行,WAP手机已经成为电脑黑客攻击的重要对象。黑客对手机进行攻击,通常采用以下三种方式:一是攻击WAP服务器,使WAP手机无法接收正常信息;二是攻击和控制“网关”,向手机发送垃圾信息(严格地说,以上两种手机病毒还属于电脑病毒,不会破坏手机本身);三是直接攻击手机本身,使手机无法提供服务。新一代的WAP手机由于其功能的多元化,因此病毒带来的灾害也会更大。侵袭WAP手机的病毒可能会自动启动电话录音功能、自动拨打电话、删除手机上的档案内容,甚至会制造出金额庞大的电话账单。手机上网:WAP无线应用协议是一个开放式的标准协议,可以把网络上的信息传送到移动电话货其他无线通讯终端上。WAP是由多家通信业巨头统一制定的,它使用一种类似于HTML的标记式语言WML,并可通过WAP Gateway直接访问一般的网页。通过WAP,用户可以随时随地利用无线通讯终端来获取互联网上的即时信息或公司网站的资料,真正实现无线上网。CMWAP多用于WAP开头的网站为主。CMNET可以浏览WWW网站。手机上网(WAP)是移动互联网的一种体现形式。是传统电脑上网的延伸和补充。通过WAP,用户可以随时随地利用无线终端来获取互联网上的即时信息货公司网站的资料,真正实现无线上网。手机病毒:手机病毒是一种具有破坏性,传染性的手机程序。可以通过发送彩信、短信,浏览网站,下载铃声,蓝牙等方式传播,会导致用户手机关机、死机、向外发送垃圾邮件泄露个人信息、自动拨打电话、发短信彩信等进行恶意扣费,甚至会损毁芯片、SIM卡等硬件,导致手机用户无法正常使用手机。史上最早的手机病毒于2000年被发现,在当时手机公司Movistar大量收到名为“Timofonica”的骚扰短信,该病毒由西班牙电信公司 “Telefonica”的移动系统向系统内的手机用户发送垃圾短信。此病毒仅仅被称作为短信炸弹。真正意义上的手机病毒直到2004年6月才出现,为一种名为“Cabir”蠕虫病毒,通过诺基亚s60系列手机进行复制,然后不断寻找安装了蓝牙的手机。在此之后手机病毒正式开始泛滥。据统计2012年二季度手机病毒数量达到23413个,接近2011年度全年数量。 2 选题背景及其意义随着手机技术的日趋成熟,以及手机的便于携带功能使得手机接入网络的频率越来越高了,然而手机网络和计算机网络有很多的相似点,对于网络方面的法律不是很完善所以如何处理手机联网安全变成了一个广大手机用户的一个重要的问题。智能手机(smartphone)与一般手机相比,它具有一般手机的通讯功能,还带有相应的操作系统(OS),可以通过下载安装应用软件来拓展手机的其他功能,如安装浏览器来浏览网页,收发邮件,查看股票、交通情况、天气情况,看电影,通过相应的软件来听音乐,玩游戏等,这类具有独立操作系统的手机被称之为智能手机。智能手机具有以下几个特点:1、具有接入无线互联网的能力, 2、具有PDA(Personal Digital Assistant),包括PIM(个人信息管理) 日程记事,任务安排,多媒体应用,浏览网页;3、具有开放性的操作系统,可以根据需求来安装需要的应用程序,使手机的功能等到极、大地拓展;4、具有强大的功能,极强的拓展能力,大量的第三方软件支持。据统计至2012/06,中国手机上网用户人数突破3亿,手机上网用户比例占全部使用互联网人数的10%。手机用户多用于QQ聊天,微博,微信,查收电子邮件,手机游戏等等,通过以上所诉的方式可以使各种病毒在手机之间传播,而现在随着电脑和手机的高速发展,手机病毒发展的速度也日益加快。由于3G的高速数据传播使得3G渐渐地取代了以前的2G以及2.5G。据调查WCDMA是世界上运用最广泛的,终端种类最多样的一种3G标准,已有538个WCMDA运营商于世界上246个国家和地区开通了WCDMA网络,3G商用市场份额超过80%,而WCDMA向下兼容的GSM网络已覆盖184个国家,遍布全球,WCDMA用户已超过6亿。因此研究手机联网安全随着Symbian系统渐渐地退出智能手机的舞台,现在智能手机使用的主要操作系统分为Android系统以及IOS系统。Android是一种基于Linux的自由及开放源代码的操作系统,主要适用于便携设备。据2012年11月数据显示Android系统在全球智能手机操作系统市场所占的份额为76%,在中国市场占有率为90%。IOS系统是由苹果公司开发的操作系统,同样适用于便携设备。IOS是一种闭源系统,但IOS系统又不是传统意义上的闭源系统,随着Android系统地不断进化,IOS系统想要保持客户的情况,必须有所发展以适应相应的变化,因此IOS系统出现了一种新的闭源方式,系统代码封闭,其他的可以与第三方软件商分享利益;苹果手上的代码不会开放,但它们也会随着时间地变化而出现变化。于2011年11月数据显示,IOS占据全球智能手机系统市场份额的30%,在美国的市场占有率为43%。随着通信技术地进步,智能手机与第三方软件的开发和普及等在一定的程度上促使了手机病毒的制造和传播,据统计在Andriod平台上的病毒已经占到所有手机病毒的84%,研究手机安全的主要在于Andriod平台。但是2012年12月13日全球知名信息安全专家、亚洲网络信息安全组织SyScan创始人Thomas Lim在360SyScan国际安全会议上透露:“随着全球智能手机普及化的迅猛发展,苹果的IOS系统已成为黑客们攻击的新热点。”目前黑客正在试图通过程式组来攻击IOS,以一连串的方式对系统中的多个漏洞进行攻击。通过攻击,黑客完全控制掌握用户的IOS系统,录像、录音,通话等信息将会被攻击者窃取。由于这种形式的攻击复杂程度高,涉及底层系统的各个层面技术较为繁琐,现在还没有安全的预防方式。但是这是因为技术的复杂程度,所以目前对于IOS系统的攻击还是相对较少。故而目前研究手机病毒的焦点在于开放的Andriod平台。现在无线互联网领域的焦点是智能手机的信息安全,在移动安全领域出现的新威胁展现出了“作恶手法创新、危害加剧”的态势。根据目前智能手机市场上的占有量,Andriod系统的手机是信息安全、手机木马的重灾区,苹果IOS系统和塞班系统紧随其后。现在安全趋势主要体现在三个方面:首先,黑客借助鱼恶意软件来进行垃圾、欺诈短信的传播;其次,流氓推广木马趋泛滥,危害方式愈发隐蔽;第三,感染的途径方式在日益增多,二维码、微博正成为智能手机用户“中招”的新途径。 权限管理;一般指根据系统设置的安全规则或者安全策略,用户可以访问而且只能访问自己被授权的资源,不多不少。在安装应用程序的时候,手机用户需要注意应用程序索要的权限,有些病毒是在安装的时候通过获得更高地权限来进行各种不法的行为。手机“肉鸡”如同电脑“肉鸡”一样也给手机用户带来极大的危害,许多手机在出厂前便被植入各种木马病毒,然后在用户使用手机的时候来进行各种操作,手机“肉鸡”的危害远大于电脑“肉鸡”,手机病毒可以给植入者带去相当可观的收入来源,曾报道过服务供应商可以在一个月内收入数亿的重款,因此导致相关的手机病毒木马更加频繁地出现在各种手机平台。除此外在手机中的各种乱收费业务中,不少的是在于手机购买时的问题,由很多山寨的手机在出厂的时候内置各种系统,很多用户在不知不觉中被强制性地扣掉了不少的费用。有的却是在送去维修的时候被不甚感染了病毒木马等。 3 研究内容3.1手机联网所受到的威胁1)应用程序的漏洞 2)病毒 3)恶意或间谍软件 4)网络监听5)手机出厂时内置的系统3.2无线网络的完全无线网络是利用无线电技术取代传统网线进行连入互联网。通过现在流行的手机无线联网方式(WIFI,3G等)来进行无线网络安全分析和研究。无线网络安全标准A.WEP(Wired Equivalent Privacy)B. WPA(WI-FI Protected Access)C. WAPI(WLAN Authentication and Privacy Infrastructure)3.3 网络安全的攻防方式通过现有的各种手机上网的威胁进行研究,了解现阶段的攻防方式3.4网络边界安全网络边界是内部网络和公共网络的分界线,网络边界路由器是所有流量出入内部网络的关键设备。网络边界安全是指在网络边界上采用的安全措施和手段,他通常包括防火墙,VPN设备等部件。3.5网络终端安全终端的安全是网络安全的重要组成部分,只有首先保证终端上没有病毒或木马的存在,才能最大可能地保证网络中数据的安全。 4 工作特色及其难点,拟采取的解决措施了解手机用户使用手机时遇到的各种病毒有些困难。拟通过网络投票方式来查看一下有多少用户遇到过类似恶意扣费,自动拨打电话等问题,以及问题的种类。通过网络投票来了解用户使用的手机类型以及手机系统。手机安全方面目前还没有一个完整的体系,使得应对手机安全有着不小的难度。由于安卓的开放源代码使得手机病毒可以迅速发展,当出现新的病毒时,不能够及时的了解和预防。通过查找文献资料来研究手机病毒和黑客攻击手机的各种方式,对此进行如何使用手机来进行防御。 5 论文工作量及预期进度2012/11/15-2013/01/ : 确定选题、资料准备、翻译有关外文资料及阅读技术文献、撰写开题报告。2013/01/ -2013/02/30: 调研分析、具体研究及新技术应用2013/03/01-2013/05/01: 撰写毕业设计报告2013/05/26-2013/06/05: 毕业设计答辩6 预期成果及其可能的创新点预计成果:通过研究黑客入侵手机的方式以及手机病毒的种类来了解和处理手机联网安全问题。通过手机病毒与计算机病毒的对比,来了解和应用手机联网安全技术,掌握有关手机联网安全的一些实际应用。通过文献资料来研究骇客攻击手机的方式,手机病毒的传播方式,手机权限相对应的功能,以及手机病毒的预防措施等。可能的创新点;通过现在主流的各种上网方式(wifi,3G等),不同手机操作系统来研究手机的安全问题。 参考文献[1] 贾铁军主编. 网络安全实用技术清华大学出版社.2011[2] 贾铁军主编. 网络安全管理及实用技术. 机械工业出版社.2010[3] 杨哲、 Zerone无线安全团队.无线网络黑客攻防.中国铁道出版社.2011[4] 中国密码学会.无线网络安全.电子工业出版社,2011[5] 贾铁军.网络安全技术及应用(第2版).机械工业出版社,2014.[6] 王继刚.手机病毒大曝光.西安交通大学出版社,2009.[7] 诸葛建伟.网络攻防技术与实践. 清华大学出版社,2011[8] 米歇尔(Mitchell T.M.). 大数据技术丛书:机器学习. 机械工业出版社,2008[9] 王建锋.计算机病毒分析与防治大全(第3版).电子工业出版社,2011[10]金光,江先亮. 无线网络技术教程:原理、应用与仿真实验.清华大学出版社,2011[11]斯托林斯,无线通信与网络.清华大学出版社,2005[12]雅各布森(Douglas Jacobson),网络安全基础:网络攻防、协议与安全.电子工业出版社,2011[13]海吉(Yusuf Bhaiji).网络安全技术与解决方案(修订版).人民邮电出版社,2010[14]麦克卢尔(Stuart McClure) , 斯卡姆布智(Joel Scambray), 库尔茨(George Kurtz).黑客大曝光:网络安全机密与解决方案(第6版).清华大学出版社,2010[15]石志国 , 薛为民, 尹浩. 计算机网络安全教程(第2版).清华大学出版社,2011[16]杨哲.无线网络安全攻防实战进阶.电子工业出版社,2011指导教师意见 随着手机技术的日趋成熟,接入互联网轻松获得大量的信息已成为未来手机发展的必然趋势。而且随着配备Java功能的i模式手机登场,手机接入互联网更为便捷,势必会因此增加手机感染病毒的机会。由于通过网络直接对WAP手机进行攻击比对GSM手机进行攻击更加简便易行,WAP手机已经成为电脑黑客攻击的重要对象。 黑客对手机进行攻击,通常采用以下三种方式:一是攻击WAP服务器,使WAP手机无法接收正常信息;二是攻击和控制“网关”,向手机发送垃圾信息(严格地说,以上两种手机病毒还属于电脑病毒,不会破坏手机本身);三是直接攻击手机本身,使手机无法提供服务。新一代的WAP手机由于其功能的多元化,因此病毒带来的灾害也会更大。侵袭WAP手机的病毒可能会自动启动电话录音功能、自动拨打电话、删除手机上的档案内容,甚至会制造出金额庞大的电话账单。 该生能够按要求针对论文所涉及课题目的和意义进行分析,文献综述叙述较完整,研究内容阐述较合理,对实现设计的技术路线有初步的了解,对后期论文工作的进度安排较适当。 在以后的工作中,要按开题的要求进行论文工作,每周应按时与指导老师针对论文撰写及程序编写、调试过程中遇到的问题进行交流和沟通。因此,同意开题。指导教师签名: 2013年2月28日评议小组意见 1、论文选题:□有理论意义;□有工程背景;□有实用价值;□意义不大。 2、论文的难度:□偏高;□适当;□偏低。 3、论文的工作量:□偏大;□适当;□偏小。 4、设计或研究方案的可行性:□好;□较好;□一般;□不可行。 5、学生对文献资料及课题的了解程度:□好;□较好;□一般;□较差。 6、学生在论文选题报告中反映出的综合能力和表达能力: □好;□较好;□一般;□较差。 7、学生在论文选题报告中反映出的创新能力: □好;□较好;□一般;□较差。 8、对论文选题报告的总体评价:□好;□较好;□一般;□较差(在相应的方块内作记号“√”)二级学院所确定评议小组名单(3-5人) 组长: 、 组员: 、 、 、 单位盖章 主管领导签名: 年 月 日 评议结论 评议小组组长签名: 评议小组组员签名:年 月 日

  • 索引序列
  • 关于信息检索方面的主题论文
  • 关于信息检索的论文
  • 关于股票的信息检索论文
  • 信息检索的论文题目
  • 关于信息安全方面的小论文题目
  • 返回顶部