文献检索论文2000字范文
文献检索的论文2000字
信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 1 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。 下面主要说明基于专业内容的XML信息集成系统的构造方法: XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。 目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。 图2 2 网格中间件的设计 图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。 内部主要功能模块说明如下: (1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。 (2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。 (3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。 (4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。 (5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。 其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。
科技文献是科技知识的最基本、最重要的表现形式,是科技情报源。
我们对一个问题研究之后,如何将其展现于众人面前是一个重要的工作。在这里我们结合具体的事例,给大家介绍科研的一个重要部分枣论文的一般格式及其注意事项。当然,要写出一篇好的论文,绝不是单单这么一个简要的介绍就够了,还需自己多写、多练。 随着科学技术的发展,越来越多的学者涉及到学术论文的写作领域,那么怎样写学术论文、学术论文写作是怎样要求的、格式如何,下面就介绍一下学术论文的写作,希望能对您论文写作有所帮助。 (一)题名(Title,Topic) 1、论文格式的论文题目:(下附署名)要求准确、简练、醒目、新颖。 论文题目是一篇论文给出的涉及论文范围与水平的第一个重要信息,也是必须考虑到有助于选定关键词不达意和编制题录、索引等二次文献可以提供检索的特定实用信息。 论文题目十分重要,必须用心斟酌选定。有人描述其重要性,用了下面的一句话:论文题目是文章的一半。 对论文题目的要求是:准确得体;简短精炼;外延和内涵恰如其分;醒目。对这四方面的要求分述如下。 1.准确得体 要求论文题目能准确表达论文内容,恰当反映所研究的范围和深度。 常见毛病是:过于笼统,题不扣文。关键问题在于题目要紧扣论文内容,或论文内容民论文题目要互相匹配、紧扣,即题要扣文,文也要扣题。这是撰写论文的基本准则。 2.简短精炼 力求题目的字数要少,用词需要精选。至于多少字算是合乎要求,并无统一的硬性规定,一般希望一篇论文题目不要超出20个字,不过,不能由于一味追求字数少而影响题目对内容的恰当反映,在遇到两者确有矛盾时,宁可多用几个字也要力求表达明确。 若简短题名不足以显示论文内容或反映出属于系列研究的性质,则可利用正、副标题的方法解决,以加副标题来补充说明特定的实验材料,方法及内容等信息使标题成为既充实准确又不流于笼统和一般化。 3.外延和内涵要恰如其分 外延和内涵属于形式逻辑中的概念。所谓外延,是指一个概念所反映的每一个对象;而所谓内涵,则是指对每一个概念对象特有属性的反映。 命题时,若不考虑逻辑上有关外延和内涵的恰当运用,则有可能出现谬误,至少是不当。 4.醒目 论文题目虽然居于首先映入读者眼帘的醒目位置,但仍然存在题目是否醒目的问题,因为题目所用字句及其所表现的内容是否醒目,其产生的效果是相距甚远的。 有人对36种公开发行的医学科持期刊1987年发表的论文的部分标题,作过统计分析,从中筛选100条有错误的标题。在100条有错误的标题中,属于省略不当错误的占20%;属于介词使用不当错误的占12%)。在使用介词时产生的错误主要有: ①省略主语枣第一人称代词不达意后,没有使用介词结构,使辅助成分误为主语; ②需要使用介词时又没有使用; ③不需要使用介词结构时使用。属主事的错误的占11%;属于并列关系使用不当错误的占9%;属于用词不当、句子混乱错误的各占9%,其它类型的错误,如标题冗长、文题不符、重复、歧意等亦时有发生。 (二)作者姓名和单位(Author and department) 这一项属于论文署名问题。署名一是为了表明文责自负,二是记录作用的劳动成果,三是便于读者与作者的联系及文献检索(作者索引)。大致分为二种情形,即:单个作者论文和多作者论文。后者按署名顺序列为第一作者、第二作者厖。重要的是坚持实事求是的态度,对研究工作与论文撰写实际贡献最大的列为第一作者,贡献次之的,列为第二作者,余类推。注明作者所在单位同样是为了便于读者与作者的联系。 (三)摘要(Abstract) 论文一般应有摘要,有些为了国际交流,还有外文(多用英文)摘要。它是论文内容不加注释和评论的简短陈述。其他用是不阅读论文全文即能获得必要的信息。 摘要应包含以下内容: ①从事这一研究的目的和重要性; ②研究的主要内容,指明完成了哪些工作; ③获得的基本结论和研究成果,突出论文的新见解; ④结论或结果的意义。 论文摘要虽然要反映以上内容,但文字必须十分简炼,内容亦需充分概括,篇幅大小一般限制其字数不超过论文字数的5%。例如,对于6000字的一篇论文,其摘要一般不超出300字。 论文摘要不要列举例证,不讲研究过程,不用图表,不给化学结构式,也不要作自我评价。 撰写论文摘要的常见毛病,一是照搬论文正文中的小标题(目录)或论文结论部分的文字;二是内容不浓缩、不概括,文字篇幅过长。 (四)关键词(Key words) 关键词属于主题词中的一类。主题词除关键词外,还包含有单元词、标题词的叙词。 主题词是用来描述文献资料主题和给出检索文献资料的一种新型的情报检索语言词汇,正是由于它的出现和发展,才使得情报检索计算机化(计算机检索)成为可能。 主题词是指以概念的特性关系来区分事物,用自然语言来表达,并且具有组配功能,用以准确显示词与词之间的语义概念关系的动态性的词或词组。 关键词是标示文献关建主题内容,但未经规范处理的主题词。关键词是为了文献标引工作,从论文中选取出来,用以表示全文主要内容信息款目的单词或术语。一篇论文可选取3~8个词作为关键词。 关键词或主题词的一般选择方法是: 由作者在完成论文写作后,纵观全文,先出能表示论文主要内容的信息或词汇,这些住处或词江,可以从论文标题中去找和选,也可以从论文内容中去找和选。例如上例,关键词选用了6个,其中前三个就是从论文标题中选出的,而后三个却是从论文内容中选取出来的。后三个关键词的选取,补充了论文标题所未能表示出的主要内容信息,也提高了所涉及的概念深度。需要选出,与从标题中选出的关键词一道,组成该论文的关键词组。 关键词与主题词的运用,主要是为了适应计算机检索的需要,以及适应国际计算机联机检索的需要。一个刊物增加关键词这一项,就为该刊物提高引用率、增加知名度开辟了一个新的途径。 (五)引言(Intorduction) 引言又称前言,属于整篇论文的引论部分。其写作内容包括:研究的理由、目的、背景、前人的工作和知识空白,理论依据和实验基础,预期的结果及其在相关领域里的地位、作用和意义。 引言的文字不可冗长,内容选择不必过于分散、琐碎,措词要精炼,要吸引读者读下去。引言的篇幅大小,并无硬性的统一规定,需视整篇论文篇幅的大小及论文内容的需要来确定,长的可达700~800字或1000字左右,短的可不到100字。 (六)正文(Main body) 正文是一篇论文的本论,属于论文的主体,它占据论文的最大篇幅。论文所体现的创造性成果或新的研究结果,都将在这一部分得到充分的反映。因此,要求这一部分内容充实,论据充分、可靠,论证有力,主题明确。为了满足这一系列要求,同时也为了做到层次分明、脉络清晰,常常将正文部分人成几个大的段落。这些段落即所谓逻辑段,一个逻辑段可包含几个自然段。每一逻辑段落可冠以适当标题(分标题或小标题)。段落和划分,应视论文性质与内容而定。 编写要求 页面要求:毕业论文须用A4(210×297)标准、70克以上白纸,一律采用单面打印;毕业论文页边距按以下标准设置:上边距为30mm,下边距为25mm,左边距和右边距为25mm;装订线为10mm,页眉16mm,页脚15mm。 页眉:页眉从摘要页开始到论文最后一页,均需设置。页眉内容:浙江广播电视大学汉语言文学类本科毕业论文,居中,打印字号为5号宋体,页眉之下有一条下划线。 页脚:从论文主体部分(引言或绪论)开始,用阿拉伯数字连续编页,页码编写方法为:第×页共×页,居中,打印字号为小五号宋体。 前置部分从中文题名页起单独编页。 字体与间距:毕业论文字体为小四号宋体,字间距设置为标准字间距,行间距设置为固定值20磅。
法学文献检索报告范文2000字
文献检索这门课主要讲授检索文献的一些基本方法,培养学生检索文献的技能学习和科技需要文献,个人全面素质的提高需文献,生活中也离不开各种信息以前多是讲解手工检索工具的使用,现在多是讲解文献数据库的使用,如电子图书数据库\电子期刊论文数据库\会议论文数据库\学位论文数据库\科技报告\专利\标准\档案\政府出版物等
(三)检索网络文献信息的情况(主要是通过搜索引擎及本专业免费资源站点进行检索。搜索引擎可使用Google、百度等,本专业免费资源站点请先通过搜索引擎查找到,然后再在其中进行检索。)搜索引擎检索情况搜索引擎的名称:检索表达式:检索结果总篇数:检出文献题录:(2条)本专业免费资源站点(至少一个)站点名称及网址:检索表达式:检索结果总篇数:检出文献题录:(2条)
化工文献检索论文2000字
MATLAB在化学工程与工艺实验数据处理中的应用*摘要]本文对MATLAB在化学工程与工艺实验中的应用进行了初步的尝试,传统的化工实验的数据处理是相当复杂的,需要花费大量的人力物力,由于化工实验需要平行实验,数据处理过程的重复性也非常大。借助MATLAB软件的应用,可以使人们从大量的数据处理当中解脱出来。本文以“化工原理”实验为例,利用MATLAB软件编写一个数据处理程序:只需输入任意一组原始数据,就可以把实验结果,数据模型以及作图一起显示出来。[关键词]化学工程与工艺;专业实验;数据处理;Matlab一、引言化学工程与工艺专业实验是初步了解、学习和掌握化学工程与工艺科学实验研究方法的一个重要的实践性环节。专业实验不同于基础实验,其目的不仅仅是为了验证一个原理、观察一种现象或是寻求一个普遍适用的规律,而应当是为了有针对性地解决一个具有明确工业背景的化学工程与工艺问题。[1]化工实验的特点流程较长,规模较大,数据处理也较为复杂。因此依靠计算机处理数据会使繁琐的数据处理过程变得简单快捷,大大提高工作效率。数据处理是每一个化学工程实验必不可少的步骤,也是至关重要的一个步骤。通过实验可以建立过程模型、分析工艺技术的可行条件。但是化工实验数据的处理往往并不是那么简单,它需要通过复杂的数学计算,若仅仅依靠手工计算则需要花费大量的时间,而且化工实验数据的处理量很大、重现性很高,因此应用计算机来处理实验数据可以大大提高工作效率。化学工程与工艺专业是一个以实验为基础的专业学科。实验的目的是通过有限的实验点去寻找某一对象或某一过程中各参数之间的定量关系,从而揭示某化工过程所遵循的客观规律。由于人力、物力、时间等条件的限制,任何实验所能完成的实验点都是有限的,如何根据这些有限的实验点归纳出各参数之间的关系,便是实验数据的处理问题。由于化工过程的复杂性,实验过程中各参数之间的关系往往是非线性的,数据处理或数据拟合的工作量往往比较大,且计算过程也比较繁琐。若能利用计算机进行数据处理,不仅处理结果的准确度很高,而且还会省下很多不必浪费的人力和时间,大大提高了工作效率。Matlab是集数学计算、结果可视化和编程于一身,能够方便地进行科学计算和大量工程运算的工程软件。它具有简单易用、人机界面良好,能使繁琐的科学计算和编程变得日益简单和准确有效。[2]本文以两个化工原理实验为例,阐述利用Matlab软件处理化工实验数据与人工处理相比较带来的方便,而且数据的结果更精确,误差更小。Matlab软件是一种简单易学的编写语言。它具有支持多平台操作系统(Windows、Unix等)、编写效率高、用途广泛、功能超强、程序极容易维护等等优点。二、数据处理程序的设计(一)程序框图由于化工实验有很多,而且每一个实验数据的处理的步骤、公式都不一样,所以很难用一个程序来描述。但是,每一个实验都有类似之处,因此每一个程序都可以用如图2-1来描述。这样则可以利用Matlab中的polyfit()函数进行线性拟合,此即为本文编写数据处理程序的基本原理。基本数据库从文献中只能查出特殊温度下的物性数据。例如:10℃、20℃、30℃等。但是工业生产中的温度就不可能那么凑巧和文献符合,因此,需要我们进行计算。平时学习中遇到这样的问题,我们往往是选两个相近的数据近似认为它们是线性关系,然后采用内插或外推法计算出工作温度下的物性常数。本文中所编写的程序把温度与密度、温度与粘度进行多项式拟合,使它们之间有两两对应关系。即在程序运行后,只需输入工作温度,程序就可以得到该温度下所需的物性常数。(三)程序的调试与运行结果流体阻力原始数据输入三、结论在化学工程与工艺实验中用Matlab软件处理实验数据是很有必要的。以本文中的化工原理实验为例,每一次实验都有大量的数据要处理,我们只要处理自己的原始数据,但教师在批改时就要把我们所有的实验数据都要计算,这个工作量是很大的。有了数据处理程序,教师只需要输入原始数据,运行程序后,就可了解学生的实验是否做得好、实验数据处理结果是否准确,这就可以节省很多的时间。在实际工程中,需要处理的数据更多,计算公式更加复杂,有时为了导出计算公式,还需要建立复杂的数学模型,手工计算基本是不可能完成的。因此,把Matlab软件应用到化学工程与工艺实验中进行实验数据的处理是十分必要的。(责任编辑:张明德)参考文献:[1]房鼎业,乐清华,李福清主编化学工程与工艺专业实验[M]北京:化学工业出版社,[2]李丽,王振领编著MATLAB工程计算机应用[M]北京:人民邮电出版社,[3]黄华江编著实用化工计算机模拟———MATLAB在化学工程中的应用[M]北京:化学工业出版社,[4]姚玉瑛主编化工原理(新版)(上册)[M]天津:天津大学出版社,
以第一篇为例:蒋怀远,饶福焕,蒋宝源. 是文章作者驱油用石油磺酸盐成分分析 文章题目〔J〕.表示期刊文章,期刊的名字就是后面的 油田化学,1985,是文章发表年度,2(1)表示第二卷第一期,75-82是这篇文章的起止页码。2(1):75-82.[P]是专利文献,前面的题目应该是专利名称,后面是专利号和年代[R]是科技报告去看看文献分类标识和参考文献格式就明白了。
化工类文献综述的论文或范文, 如有需要及时+wo谈
科技文献检索论文2000字
直接去看看(临床医学进展)上的文献吧
找helplunwenmarket,估计会收费
不好意思 。我没 时间
文献检索结课论文2000字
同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。
科技文献是科技知识的最基本、最重要的表现形式,是科技情报源。
信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 1 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。 下面主要说明基于专业内容的XML信息集成系统的构造方法: XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。 目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。 图2 2 网格中间件的设计 图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。 内部主要功能模块说明如下: (1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。 (2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。 (3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。 (4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。 (5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。 其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。