同求!.。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。
信息检索与利用试题题目解答,你可以通过微信搜索进行查看与复制。具体如下:
1.打开手机中的微信
2.找到微信上的搜索键;
3.搜索“信息检索与利用试题题目”;
4.搜索后就有所有流量器中的“信息检索与利用试题题目”无需下载浏览器;
5.这里面就有你需要的内容。
信息检索答案题型一1、信息素养或素质的具体内容有那些?信息素质是指用户在利用以计算机及其网络技术为代表的现代科学技术进行知识学习、成长的过程中,逐步形成的主动参与信息活动、自觉应用信息技术的意识、态度、理念及具备的获取、识别、加工、处理、传递、创造信息的能力和利用信息去解决实践问题的能力。它包括强烈的信息意识、系统化的信息理念、综合信息能力等内容。2、信息、知识、情报、文献的概念?文献的组成要素? 信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。 2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理 3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总和。情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。文献的概念:是记录有知识的一切载体。文献的组成要素:不但包括现代图书馆的全部馆藏,同时也包括了档案馆、博物馆、声像馆和情报中心收藏的全部馆藏。3、信息、信息资源包括那些类型?1)信息的类型:从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。以信息所依附的载体为依据,可分为文献信息、口头信息、电子信息、生物信息等信息资源类型:根据存储媒介不同,信息资源可以划分为印刷型信息资源、电子信息资源、数字信息资源和多媒体信息资源。4、文献有那些类型?将文献划分成这些类型的依据是什么? 1)根据载体材料、存储技术、和传递方式划分可划分为:印刷型、缩微型、试听型和机读型文献信息源2)根据加工程度的不同划分可分为:一次文献信息源、二次文献信息源、和三次文献信息源3)根据文献信息源的内容划分可以分为:图书、期刊、报纸、科技报告、政府出版物、会议文献、专利文献、学位论文、标准文献、档案文献、产品样本5、数据库的类型?网络资源有那些特点? 数据库的类型:联机数据库和光盘数据库、网络数据库网络资源有那些特点:数量庞大、增长迅速;内容丰富、形式多样;变化频繁、价值不一;结构复杂、分布广泛;信息分散、无序等6、何为“核心期刊“?本专业的核心期刊有那些? 核心期刊定义是 :在某一学科中 ,少数期刊覆盖了该学科的大部分文献 ,而多数期刊仅包含该学科的少量文献 ,这少数期刊就是该学科的核心期刊。本专业的核心期刊有:《政治与法律》、《环球法律评论》、《当代法学》、《法学》7、什么是信息检索?类型有哪些? 定义:是通过一定的方法和手段将用户的提问特征与数据源所采用的特征标志进行对比,然后将二者相一致或比较一致的信息提取出来供用户使用的过程。类型:文献检索、数据检索、事实检索8、简述信息检索的原理。信息检索的实质是一个匹配过程,也就是信息用户需求的主题概念或检索表达式同一定信息系统的系统语言相匹配的过程,如果两者匹配,则所需信息被检中,否则检索失败。9、什么是计算机信息检索系统?它由几个部分组成? 计算机信息检索系统:是利用计算机和一定的通信设备查找所需信息的检索方式,检索的系统就是人的设计操作和计算机自动化处理相结合的系统。组成部分:光盘检索系统、联机检索系统、网络检索系统10、计算机信息检索技术包括哪些?布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索并向着智能化方向发展。11、从外表特征和内容特征来看,检索语言的类型各有哪些?不同特征各举一简单的检索式。描述信息外部特征的检索语言包括题名(书名、刊名、篇名)、著者姓名\单位名称、出版事项、代码\序号(如专利号、报告号、标准号)等,其作为检索标志直接明了,使用时较为简单。描述信息内容特征的检索语言包括分类语言和主题语言,主题语言又可分为关键词语言、单元词语言、标题词语言和叙词语言。12、为什么要创建检索语言,它有哪些类型?比较分类语言和主题语言的优缺点。 1)检索语言是指用于描述信息系统中信息的内容特征及外部特征和表达用户信息提问的一种专门语言,目的是为了便于检索文献。2)类型:按检索语言是否受控可分为人工语言和自然语言,按检索时的组配实施状况可分为先组式和后组式检索语言,按描述信息特征的不同可分为描述信息外部特征的检索语言和描述文献内容特征的检索语言。13、信息(文献)检索的方法与途径,详细论述检索步骤?1、分析研究课题,明确检索要求:分析课题的主要内容、确定课题的文献类型、确定检索时间范围、分析用户的检索评价要求2、选择检索工具:根据检索课题的要求,选择最能满足检索要求的检索工具书,不同的资料类型就应该选用不同的数据库3、确定检索策略:确定检索途径、制定检索策略4、调整检索方案:确定了具体的检索方法之后,就要利用所用数据库,在一定的年代范围内具体查找,以获得文献线索。用户对每次检索结果在作出判断,并对检索策略做出相应的修改和调整,知道得到满意的结果5、获取原文:利用全文数据库直接获取,利用文献传递系统获取、利用文摘数据库的原文服务、利用OPAC检索系统,进行馆际互借。14、什么是文献线索?列举以上不同文献类型(期刊论文、会议论文、图书、标准等)的线索。文献线索:文献检索的概念有狭义和广义之分。 狭义的检索(Retrieval)是指依据一定的方法,从已经组织好的大量有关文献集合中,查找并获取特定的相关文献的过程。这里的文献集合,不是通常所指的文献本身,而是关于文献的信息或文献的线索。如果真正要获取文献中所记录的信息,那么还要依据检索所取得的文献线索索取原文。 广义的检索包括信息的存储和检索两个过程(Storage and Retrieval)。信息存储是指工作人员将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。 15、简述“超星电子图书馆”、“书生之家数字图书馆”、“中国学术期刊全文数据库”、“维普中文科技期刊数据库”和“万方数字化期刊”收藏资源的特点 1)、超星电子图书馆:收录的电子图书内容丰富,包括经典理论、哲学、社科、经济、语言文字、文学、数理化、生物、工业技术、计算机等50余个学科门类,现拥有中文电子图书80万种,论文300万篇,全文总量4亿余业,并且每天仍在不断地更新与增加2)书生之家数字图书馆:主要收录1999年以后出版的新书,其收录量为每年中国出版的新书品种一半以上,目前拥有图书15万种,数量可观,学科门类齐全。3)中国学术期刊全文数据库:该库的产品分为十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。个专辑分为若干专题,共168个专题。4)维普中文科技期刊数据库:按照《中国图书馆分类法》进行分类,所有文献被分为8个专辑:社会科学、自然科学、工程技术、医药卫生、农业科学、经济管理、教育科学和图书情报。8大专辑又被细分为36个专题 。5)万方数字化期刊收藏资源的特点:目前集纳了理、工、农、医、人文五大类70多个类目,2500多种科技类核心期刊,实现全文上网。该系统收录的期刊种类主要有7个:基础科学、农业科学、社会科学、哲学政法、医学卫生、教科文艺、经济财政。16、结合“中国学术期刊全文数据库”、“维普中文科技期刊数据库”两种数据库,谈各自的“高级检索”的方法1)、维普中文科技期刊数据库“高级检索”的方法:打开维普数据库,点击高级检索,输入关键词、作者、分类号、机构、刊名,扩展检索条件,如:时间条件、专业限制、期刊范围,然后点击检索。2)、中国学术期刊全文数据库“高级检索”的方法:打开中国知网,点击高级检索,进入中国学术期刊全文数据库,输入检索控制条件,如:发表时间 来源期刊` 期刊年期 支持基金,然后输入内容检索条件。17、简述特种文献的特点和作用,学术论文的结构特点:发行渠道特殊,形式各异,具有特殊的、其它文献所不能取代的价值作用:传递科技信息结构:一般而言,学术论文包括八个必要的组成部分,其中前置部分包括题名、作者、摘要、关键词,主体部分包括引言、正文、结论、参考文献。18、按级别分的标准的类型?我国标准分为哪些等级?分别用那些符号表示分类:1)按使用范围可分为:国际标准、区域标准、国家标准、行业标准、地方标准、企业标准按标准的约束性可分为:强制性标准、非强制性标准我国:国家标准GB 行业标准FZ 地方标准DB 企业标准Q2)一个完整的分类号由代表部、大类、小类、大组或小组的符号构成。例如:A01B 1/02。 ——部 A ——大类 A01 ——小类 A01B ——大组 A01B1/00 ——小组 A01B1/02 分类 ——A部:生活需要 ——B部:作业;运输 ——C部:化学;冶金 ——D部:纺织;造纸 ——E部:固定建筑物 ——F部:机械工程;照明;加热;爆破 ——G部:物理 ——H部:电学 19、专利的新颖性、创造性、实用性各自含义,中国保护的专利类型1、新颖性,是指在申请日以前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中。 2、创造性,是指同申请日以前已有的技术相比,该发明有突出的实质性特点和显著的进步,该实用新型有实质性特点和进步。 3、实用性,是指该发明或者实用新型能够制造或者使用,并且能够产生积极效果。中国保护专利的类型:发明、实用新型、外观设计以上回答你满意么?
高校文献信息检索的必要性与有效方法论文
在学习、工作中,大家总免不了要接触或使用论文吧,论文可以推广经验,交流认识。如何写一篇有思想、有文采的论文呢?以下是我收集整理的高校文献信息检索的必要性与有效方法论文,希望能够帮助到大家。
摘要: 随着互联网信息、知识的不断更新,文献信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段,成为继续学习的重要工具。通过探讨文献信息检索的科学定义及高校信息检索的必要性,进而从文献信息检索流程角度提出高校文献信息检索的途径和策略。
关键词: 文献;信息检索;策略;
文献信息是巨大的社会财富,它伴随着社会的广泛进步而迅速更新和积累,在带给我们越来越便捷的同时,也必然给阅读、查找和充分利用信息带来一定困难。为解决庞大的科学文献和个人特定需求之间的矛盾,便产生了文献信息检索,文献信息的检索和利用已经发展成为一门专门的学科,高校信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段。
一、文献信息检索定义
“信息检索(Information Retrieval)”一词最早出现在20世纪50年代,有广义和狭义之分。
广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。也就是说,信息检索包括两个环节和内容:“存”和“取”。狭义的信息检索则专指信息检索过程中的第二个环节,即从信息集合中找出所需要信息的过程,也就是我们常说的信息检索、信息查找或信息搜索等术语。
信息检索按照检索对象的不同又可以分为文献检索、数据检索、事实检索。本文侧重于文献检索,即通过检索文献来获取所需要的信息、知识、情报[1]。
二、高校文献信息检索的必要性
(一)信息的多元化需要师生具备一定的信息评价和筛选能力
在当今互联网、信息化社会,人们无时无刻不在利用信息资源进行生产、生活和创新创造。但面对浩瀚的信息海洋,信息流和信息量越来越多、越来越大,人们进行检索和利用的困难也就越来越大。随着4G网络的覆盖和智能手机的普及,人们轻而易举就能接触各种各样的信息,各类门户网站、微博、微信、QQ等推送信息的常态化,一方面丰富了我们的日常生活,拓宽了我们的视野;另一方面也给我们对于浩瀚无垠的信息的过滤、评价、筛选和运用带来极大的挑战[2]。在纷繁复杂的信息洪流中,哪些是对我们有益的,哪些会给我们带来负面的影响,都要求我们具备一定的信息鉴别和评价的能力,需要我们具备较高的信息素养和信息处理能力。文献信息检索能力成为高校师生应掌握的基本学习技能之一,是继续学习的重要手段,在教学、学习、科研和生活方面发挥巨大作用。
(二)学校对学生的信息素养教育重视程度不够
早在20世纪70年代,联合国教科文组织就对“文盲”下了新的定义:在当今科学技术飞速发展的时代,文盲已不是不识字的人,而是不知道如何获取知识的人。我国国家教委要求,全国各大院校要全面普及开设文献信息检索课,这对大学生普及文献检索知识、提高信息素养、增强信息检索的兴趣、提高信息检索能力都具有十分重要的现实意义[3]。然而现状却是,全国各大高校开设的信息检索课程大部分是以选修课的形式存在,学生自愿选择,主要目的也就是为了修够学分,以这样的方式开展信息教育并不能取得理想的效果,这种重专业、轻信息素养的教育还普遍客观存在。
(三)信息检索助力高校科学研究
科学研究是高等学校重要职能之一,大学对整个社会的科技进步与发展起着重要引领与推动作用。现代科学技术的迅猛发展,各个学科的交叉和渗透一方面促使了新的学科不断涌现,源源不断地出现大量新的知识;另一方面,知识的老化和被淘汰的速度也会越来越快。作为高校科研人员,必须具备一定的信息素养,即敏锐的信息意识、发现高质量信息的能力、信息的选择和评价的能力以及如何正确地引用文献、尊重他人知识产权的能力。作为科学研究者,必须时时了解学科最前沿的动态,掌握最新的知识,这样才能研究出有价值的科研成果,而文献信息检索能力就是科学研究人员必不可少的要素之一。为了减少课题的重复研究,提高研究的成功率,科研人员在研究一项课题之前,必须要进行的相关的资料收集和文献检索。在确定选题之后同样要科学合理运用文献信息检索方法开展文献信息甄别筛选和运用,进行进一步研究,保障研究成果的承续性,进而推动科学研究向纵深发展。
三、高校文献信息检索的策略
(一)分析检索问题
在解决一个问题之前,我们首先要做的就是分析问题,对问题的分析是解决问题的关键所在。分析一个问题我们可以从如下几个方面考虑:首先,提问者是谁。同样一个问题,教师跟学生对内容的层次要求就不同;一个专业性的问题,高校专业教师和学生对问题的要求也会不同。其次,问题的性质。不同的问题对应不同的要求,如果我们对一个概念需要界定,或者需要查找与自己所撰写文章密切相关的文献,这时对概念的界定和对文献的检索就需要“准”。如果我们要做一个论文的选题的确定或者做一个项目的申报、企业新产品的开发,在做这些工作之前,我们需要对前人的研究成果做一个全面的普查,这类型的问题的要求就是“全”。再如,我们要了解某个领域的趋势前沿和最新进展,对这类问题的要求就是查找的资料必须要有新颖性,即“新”。再有,对一些技术性强的问题,如专利的申报、企业新产品的开发、某一项技术的引进等,对这类问题的检索要求是“细”。再次,学科和主题。如果只是单一的某一个学科或主题,那么只需要找到收录这个学科资源的数据库进行检索就可以。但是有很多跨学科领域研究的问题如果只是在一个数据库查找,就会造成资源的不全面。第四,资源类型。我们熟知的资源类型有学位论文、会议论文、期刊论文、图书、专利、标准等等,不同的资源类型收录的特点也不同,如内容的深度、系统性、时效性都不同,研究课题不同,对资源类型的要求也不同。第五,资源的范围。查找资料的时候往往对范围进行限定,范围包括时间范围、地域范围、语种范围等。
(二)选择合适的检索工具
分析检索问题之后,我们需要选择合适的检索工具。常用的检索工具有搜索引擎和商业数据库。搜索引擎它具有检索过程不收费、面向所有的终端用户、对用户检索水平要求较低等特点,常用的搜索引擎有谷歌、百度、搜狗、必应等。商业性数据库的特点有:第一,检索需要收费或者授权,高等学校一般都与相关商业数据库合作,校园网环境下一些商业数据库是可以免费使用的。第二,它们的功能和收录资源的范围有明确的定位,如只能检索专利信息的德温特专利创新索引、只能检索学位论文的ProQuest Digital Dissertations数据库、只能检索会议论文的CPCI、只收录世界上顶尖期刊论文的Web Of Sicence的三大引文索引数据库等。第三,这些数据库都有自己的一套检索技术,因此对用户的检索水平要求较高。除了上述的专业性数据库之外,还有一些因经常使用被我们熟知的综合性数据库,如中国知网、维普、万方等。
除了搜索引擎和商业数据库之外,还有一些其他可以免费获取资源的途径,如主题指南(导航)、数字图书馆、政府的网站(数据库)、电子预印本、博客、微博、机构知识库等途径。因此,我们只有熟知各个不同的检索工具以及它们的特色才能检索到不同的文献类型。 高校师生要立足本职工作和学习需要选取适合的文献信息检索工具,助力科学研究、日常教学和学习生活。
(三)抽取恰当的关键词
选取科学适当的检索工具后,下一步工作就是确定检索关键词。
首先,要确定研究问题有哪些核心关键词(Core Keywords),抽取核心关键词可以依据汉语主题词表,如查询表述具体事物名称的名词术语、事物的状态或现象的名词术语、科学分类的名词术语、研究方法、技术方法的名词术语、工艺方法、加工技术的名词术语、化学元素、化合物、金属材料与合金的名词术语、国家名称、地名、组织机构名称以及文献类型、文献载体的名词术语等。其次,为了保证查全率和查准率,应当注意这些核心关键词有无其他的表述方式,如同义词、近义词、与之相关的词、有无缩写形式或者全称形式、有无相关的组织机构、英文的单数复数形式等,如果有,分别检索。第三,避免用太泛的关键词,应选用专指性很强的关键词。例如,我们要检索计算机软件有关的视频资料,如果我们只输入“计算机操作视频”这样类似的检索式,当然也可以找到一些检索结果,但缺乏针对性。我们不妨直接明确输出我们要学习的.软件的名称,如“Powerpoint 视频”,这样检索出的结果的相关性就要高很多。第四,学会利用专业术语。不同的学科,他们的专业术语表述不同,如信息检索、克隆人、电子图书等都属于专业术语,对这些专业术语进行检索的时候,尽可能加上双引号进行精确检索,可以提高检索结果的相关度和准确度。
(四)构造检索式
确定几组关键词后,下一步工作就是要构造检索式。即要用一定的运算符号将这些关键词连接起来,形成具有一定意义的表达式,也叫检索提问表达式。构造检索式具有一定的专业性,这就需要依托信息检索课和上机课来实现,重点指导学生如何正确构造检索式。构造检索式,可以从以下几个方面考虑:首先要明确检索词之间的逻辑关系,用布尔逻辑运算符AND、OR、NOT将它们连接起来;然后需要考虑检索词之间的位置是否需要进行限定,如果需要则根据不同的检索工具使用一定的检索手段对检索词的位置进行限定;对于一些专有名词,是否需要作精确检索,如果需要则给检索词加上双引号;为了使检索结果更加精准,我们还需要把检索限制在某一个范围当中,比如限制在某个字段,语种、出版年、摘要、题名等不同的字段作一个限定,还有其他的各种限定,如文献类型、机构的域名的类型等等。当然,不同的检索工具可能有自己特有的语法用法,我们应当学会灵活应用和变通不同的检索方法和技巧。
(五)筛选检索结果
通过选取关键词、构造检索式进行检索后,会得到众多检索结果,但在众多的检索结果当中,并不是每一条都是我们所需要的,所以我们要对检索结果作一些筛选。首先,依据结果的相关度,我们得到的检索结果是否与我们要检索内容的主题相关,是否与我们所需要的信息内容的层次、深浅度相匹配;其次,要看作者,即要看作者的权威性和影响力,这直接影响到我们检索到的文献信息的质量,对于一些没有显示作者的网站来说就缺乏一定的严谨性;再次,要看检索结果的时效性,往往最新的观点、新的理论、新的解决方案都来源于最新发表的文献信息。另外,要合理判断检索信息的公正性、准确性,避免使用错误的、缺乏科学论证的文献资料,等等。
(六)调整检索策略
经过前面的检索步骤得出的检索结果当中,如果还是没有理想的检索结果,就需要调整检索策略。首先,当检索结果太少的时候,则需要扩大检索范围。比如看检索词是否有近义词、同义词、上位词,将这些检索词用布尔逻辑语OR来连接,可以很好的扩大检索范围。再如,利用宽容的检索方法检索,像英文单词中经常会有一部分相同的部分,那些可变换的部分就可以用截词检索代替。还有英文名词的单复数形式,如果我们要找“女性”的相关资料,只输入“woman”检索就会漏检很多,还应该对它的复数形式“women”也进行检索。还比如英文的缩写形式,比如我们要找“慕课”相关的文献,如果我们只是输入“慕课”就可能会漏掉相关重要信息,我们还应该用它的缩写形式去检索,输入“MOOC”或者它的英文全称“Massive Open Online Courses”,这样分别去检索才不会遗漏掉重要文献资料。如果是因为我们的限制太多导致检索结果太少,那么可以考虑去掉一两个限制。因为每一个检索工具收录的范围和内容有一定的侧重点和有限性,所以我们也可以考虑更换不同的检索工具进行检索。其次,当检索结果太多的时候,我们也应该采取一定的措施缩小检索范围。例如用布尔逻辑运算符AND和NOT连接检索词,用AND多加几个检索词进行限定,或者用NOT排除一些限定;使用检索词的下位词进行检索;对一些专有名称,专业术语加上引号进行精确检索也可以缩小检索范围,从而实现更精确地检索;对检索词加上一定的限制,如对它的时间、机构、网站、文献格式等进行一个限制;除此之外,我们还可以利用检索工具本身所具备的二次检索功能来筛选检索结果,从而缩小检索结果。
(七)求助专业人士
如果通过上述途径仍然不能取得理想的文献信息资料,我们可以通过一些掌握现代技术的、具有丰富科学研究经验的专业人士来获取我们想要的文献信息。例如,有很多图书馆的网站主页上都会有在线咨询的功能,我们可以通过在线咨询的服务功能从图书馆员那里获取文献信息资料。很多图书馆都开通了馆际互借的功能,通过馆际互借,我们可以共享很多成员馆的文献信息资源,而这些庞大且宝贵的文献信息资源经常会被老师们和学生们忽略掉。再如,我们还可以求助一些在线的问题回答类的网站,像百度知道、知乎等,还有国外比较权威的网站像AIIExperts等,通过询问这些网站上的一些权威专家,也可以为我们的学习和研究提供宝贵的意见。
总之,互联网是一个非常开放的空间,如果善于应用,我们不仅可以贡献自己的经验和智慧来为他人服务,我们也可以共享他人的智慧来为我们自己的研究和学习服务。
四、结语
信息检索的最终目的是通过解决各种各样的问题,进而提高学习和科学研究能力。正如美国文献家赫伯特所言:“知识的一半,是知道到哪里去寻找它。明日的文盲,不是不能阅读的人,而是缺乏检索能力的人。”互联网时代文献信息检索能力比文献信息本身更重要。来自美国的非盈利性机构“今日信息科学网站”的一份报告“Information Literacy A Skill for Life”也在呼吁互联网时代新的技能,即媒体与信息素养。由此看来,信息素养的培养不光适用于高校信息素养教育,同时也具有世界性的重要意义。文献信息知识伴随着社会的发展而迅速更新和积累,高校应强化对信息检索的指导,提高信息检索能力,助力高校教学和科学研究。
五、参考文献
[1]陈振标.文献信息检索、分析与应用[M].北京:海洋出版社,2016:19.
[2]陆和建,姜丰伟.新信息环境下高校信息检索课教学方式的优化策略[J].大学图书馆学报,2015(2):96—99,112.
[3]万爱群,杨红.浅谈开设《信息检索与利用》课程的必要性[J].广西质量监督导报,2007(6):105—118.
找几本,把书名,作者等详细记下来,最后写在你论文的参考文献中,英文占总文献量得三分之一以上。
论文写作中文献资料检索
在社会的各个领域,许多人都写过论文吧,借助论文可以达到探讨问题进行学术研究的目的。一篇什么样的论文才能称为优秀论文呢?下面是我收集整理的论文写作中文献资料检索,欢迎阅读与收藏。
自从有了文献便有了文献检索。当人们从中查找所需信息时,文献检索也就应运而生。只不过早期可检索的对象较少,因而检索是一个不自觉的过程。早期的文献检索主要是手工检索,人们通过“心想、手翻、眼看”的方式进行。随着社会的发展和文献量的增加,人们逐渐认识到文献检索的必要性与重要性,现代文献检索是以计算机网络技术和现代信息技术为基础,在文献检索的应用中逐渐发展起来。
一、文献检索概述
文献是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。现在通常理解为图书、期刊等各种出版物的总和。
文献是记录、积累、传播和继承知识的最有效手段,是人类社会活动中获取情报的最基本、最主要的来源,也是交流传播情报的最基本手段。根据载体把其分为印刷型、缩微型、机读型和声像型。根据不同出版形式及内容,可以分为:图书、连续性出版物、特种文献。
电子文献是以数字方式将图、文、声、像等信息储存在磁、光、电介质上,通过计算机、网络或相关设备使用的记录有知识内容或艺术内容的文献信息资源,包括电子书刊、数据库、电子公告等。
文献检索,就是从文献信息集合中找出所需要的文献的过程,相当于人们通常所说的资料查寻。
二、纸质文献的检索
纸质文献的检索一般分为两种:直接检索和间接检索。直接文献检索地目的是为了获取所需要的文献。因此,有时可以直接从报刊杂志中通过浏览的方法直接获得所需文献,称之为直接检索。它具有方便、快捷的特点,适于浏览新到的书刊资料,有时是一种获得最新情报的方法,但同时又受到各种限制而漏查很多相关文献。因此,它只能作为一种辅助性的检索方法。
间接文献检索是一个利用检索工具并从中查出特定文献的过程。这一过程就称为间接检索。它可以比较系统地、全面地获得相关课题的文献信息。我们需要掌握的就是这种利用检索工具的间接检索的方法。这也是文献检索的主要方式。它大体上可以分为以下五个步骤:
(一)分析研究课题,明确检索要求:弄清楚课题的性质及学科专业范围是什么,所需的文献类型,要求的文种、年代的限定、课题的关键词等等是检索的第一步。
(二)选择检索工具:根据检索课题的要求,选择最能满足检索要求的检索工具或数据库。首先必须对各种检索工具所覆盖的学科范围有清楚的了解,然后从文献的类型、文种、出版的时间等方面来考虑选用哪种检索工具最合适。
(三)确定检索策略:选用具体的检索工具后,就要考虑选择和确定检索方法,确定具体的检索点,是从分类途径还是从主题途径检索,所查找的文献要达到什么要求,选用什么检索词等,以便具体进行检索。
(四)使用检索工具:确定了具体的检索方法后,就要利用所用的检索工具,在一定的年代和文献范围内具体查找,以获得文献信息。手工检索时可以一边检索一边分析取舍,获得符合需要的文献。(五)获取原文:检索文献最终要获取原文,如果在馆藏文献中查不到,则可通过各类联合目录获得其他单位收藏的信息,再通过馆际互借等途径或方式获取原文。这样就完成了文献检索的全过程。
文献检索方法主要有三种:
(一)追溯法(亦称滚雪球法):利用著者发表的文献后所列的参考文献为线索,由近及远,进行逐一追踪的查找办法,追查原文,再从这些原文后所附的参考文献逐一检索,象滚雪球似的获得一批批相关文献的方法。它是科研人员常喜欢用的一种简便的获得文献的途径。
(二)常用法:常用法也称工具法,就是直接利用各种文献检索工具查找文献的方法。由于检索工具的种类繁多,一般应根据课题内容特点,首先利用综合性的检索工具,然后再使用专业性的检索工具,二者结合,才不致造成文献资料的漏检。常用法根据时间范围又分为顺查法、倒查法和抽查法。
(三)循环法:循环法也称分段法、交替法或综合法,这是追溯法和常用法的结合。是将追溯法和常用法结合起来交替使用,充分发挥二者的优势分期、分段地交替使用,直到获得满意的相关文献为止。实际课题的检索选用何种方法,要根据具体情况而定:一是根据课题研究的需要;二是视所能利用的检索工具和检索手段。在检索工具比较丰富的条件下,可以利用常用法;在获得针对性很强文献的条件下可利用追溯法获得相关性较强的文献;获悉研究课题出版文献较多的年代可利用抽查法。
三、电子文献的检索
随着计算机、数据库和互联网络技术的普及,电子化图书馆、文献资料网络化服务等正成为我们获取文献资料的必不可少的手段,是我们学习、工作和科研的有力助手。利用好电子文献和检索工具,掌握好网络信息的搜索方法和策略对于获取信息是必要的。
传统的图书检索手段和方法对电子信息的检索作用有限。现代文献信息均能以数字化的形式获得,如电子图书、电子期刊、学位论文、会议论文、专利文献、标准文献、声像资料、多媒体资料等。电子文献的检索途径主要有以下几种:
(一)网络目录和搜索引擎
各种各样的Internet网络文献检索工具不计其数,根据提供检索与否,有网络目录和搜索引擎之分。
网络目录是按主题的等级排列的主题类目索引,类别目录按一定的主题分类体系组织,排列方法有字母顺序法、时序法、地序法、主题法等或是各种方法综合使用。用户通过逐层浏览类别目录、逐步细化的方式来寻找合适的类别直至具体资源。
搜索引擎则强调的是它的检索功能,能提供布尔逻辑检索、短语或邻近检索、模糊检索、自然语言检索等方式查询信息。各种资源进行标引,并为检索者提供检索的工具。基于搜索引擎的检索方法接近于通常所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获取检索结果,并输出给用户。
(二)联机馆藏目录
网络上有许多机构提供的馆藏书目信息、中外文期刊联合目录信息。其中包括各图书馆和信息机构提供(下转第137页)
(上接第36页)的公共联机检索(OPAC)馆藏书目、地区或行业的图书馆的联合目录等。
中国国家图书馆在网上提供图书目录在线检索,有题名、责任者、出版者、关键词、标准书刊号、分类号、出版地、出版国等10个检索途径。全国高等教育文献保障体系(CALIS)提供61所高校的馆藏期刊、书目和学位论文联合查询。
(三)网络数据库
网络数据库包括综合性和专业性期刊数据库、专利数据库等信息资源。这类信息资源可分为商业性和非商业性的数据库。这些数据库由专门的信息机构或公司专业制作和维护,信息质量高,是专业领域内常用数据库。
非商业性数据库因为免费使用,用户以较低的成本可获得所需的信息,所以也有很高的吸引力。如:IBM公司的免费专利文献数据库,提供美国专利的免费检索,用户可检索到1971 年以来的美国专利说明书的内容,包括专利书目信息和专利项,浏览1974年以来的专利文献。
(四)电子出版物
由于网上信息传播速度快,越来越多的出版商注重网上报刊发行。目前国内外已有很多出版高和信息服务中介商介入电子出版行业。电子出版物有电子图书、电子期刊和电子报纸。
(五)参考工具书
网络中许多参考资料是可以免费使用的,如新格罗夫音乐与音乐家大词典、英国大不列颠百科全书、汉语词典、学校或企业名录、中国国家统计局统计资料等大型工具书已加入因特网。
文献检索和使用的工作贯穿了论文写作的全过程:我们往往是先确定写作的大致内容;其次根据这个大致内容确定文献搜集的范围;然后阅读了主要的文献后再确定研究写作的具体内容;最后根据具体内容全面检索原始文献, 搜得的文献又充实了论文写作的基础。
一、文献检索的意义
文献检索在毕业论文撰写中的重要作用文献检索就是从大量的文献中迅速、准确地查出与特定的科学研究课题有关的资料。文献检索在大学生毕业论文撰写中有着不可替代的重要作用。
1.文献检索便于继承和借鉴前人的科研成果,避免重复研究
积累、继承和借鉴前人的研究成果是科学发展的重要前提,没有继承和借鉴就不可能有创新。毕业论文选题同科研选题、立项一样,必须通过文献信息检索或查新技术掌握国内外同类研究的动态进展,从中吸收有益的启示或参考数据,掌握大量相关信息,或得到更多、更有价值的论证依据。正如英国物理学家牛顿所说的是“站在巨人的肩膀上”,是指科研要熟悉别人的劳动成果,从前人研究的`“终点”中,找出自己研究的“起点”,从前人所用的研究方法、手段中受到启发,拓宽思路,分析研究所占有的资料,提炼出正确鲜明的观点。
2.文献检索有利于节省大学生查找文献时间,提高毕业论文质量
信息时代文献资料的迅猛增长,使得文献资料的`检索困难重重。如能灵活运用文献检索的技能,缩减检索时间,即能延长论文的写作时间。同时,文献信息检索利用可为毕业论文的观点提供理论依据和支持。大学生通过对文献信息检索分析比较后,才能从论题的创新性、内容的科学性等方面进行质量评价,进而提高论文质量。
3.文献检索启发学生的创造性思维与研究能力
图书馆文献是过去知识经验的总结,也是未来知识发展的向导。在文献检索过程中与论题有关联的文献信息很容易激发、调动大学生的潜在知识和智能,并从中获得灵感。不同的观点和方法,可促进大学生以发散性思维思考分析问题,拓展认识的深度和广度,进而全面获取有关学科的文献信息,及时了解学科领域中出现的新问题、新理论和新观点。图书馆文献信息检索利用的过程就是提高大学生研究能力的过程
二、文献检索的途径与方法
1.分析研究课题,确定检索要求
在进行具体的文献检索前,首先要分析课题,抓住课题的本质和要求,掌握代表课题内容的主题概念及其相关事物。依据本课题主题词来选定相应的检索工具,并从中选定检索标志,确定检索途径。在这方面自然科学、工程技术、人文和社会科学等具有不同的检索内容和要求。
2.选择检索工具
目前全世界有 2000 余种手工检索工具(书本型检索工具),还有联机检索、光盘数据库检索、Internet 网络检索等计算机检索工具。选择检索工具可利用“检索工具书指南”以及各种检索教材来了解检索工具书的收录情况。结合本课题,针对图书馆文献资料收藏情况,确定采用手工检索与机检相结合的方法。常用的检测工具包括以下几种:
书本检测工具:全国报刊索引、复印报刊资料、报刊资料索引、中国社会科学文献题录、国外社会科学论文索引等。
光盘数据库:全国报刊索引数据库、中国学术期刊(光盘版)、中国科学引文数据库、中国科技期刊篇名数据库、中国科技期刊篇名数据库等。
网络资源:中国知网、中国期刊网、、院校图书馆等。
3.文献检索的途径与方法
文献检索方法可分为常用法、追溯法和分段法三种。常用法是利用检索工具查找文献的方法,有三种类型,一是顺查,是以检索课题起始年代为起点,按时间顺序由远及近的查找文献的方法。二是倒查,是逆时间顺序由近及远的查找文献的方法。三是抽查,是针对学科发展的特点,抽出该学科发展迅速,发表文献比较集中的一段年代,抽查某几年的书籍和期刊、数据库。追溯法是利用已有文献后面所附的参考文献进行追溯查找的方法。一般参考文献中的原文结尾都附有新的参考文献目录,可视需要一直追溯下去,从而获得足够的文献资料。利用这些资料特别要注意综述性的文献资料,因为这些资料已对某一问题进行了一定的归纳整理,这样可以节约查找、阅读原始文献的时间。追溯法比较适合初写论文的大学生选用。分段法是将常用法与追溯法交替使用,既利用工具书检索,又利用文献后所附参考文献进行追溯。
另外,要检索重点资料,掌握核心期刊。核心期刊是期刊中学术水平较高的刊物,是我国学术评价体系的一个重要组成部分。它主要体现在对科研工作者学术水平的衡量方面,如在相当一批教学科研单位申请高级职称、取得博士论文答辩资格、申报科研项目、科研机构或高等院校学术水平评估等,都需要在核心期刊上发表一篇或若干篇论文。某学科(或某领域)的核心期刊,是指那些发表该学科(或该领域)论文较多、使用率(含被引率、摘转率和流通率)较高、学术影响较大的期刊。目前国内有 7 大核心期刊(或来源期刊)遴选体系:
(1)“北大核心”:北京大学图书馆“中文核心期刊”,即北京大学图书馆与北京高校图书馆期刊工作研究会联合编辑出版的《中文核心期刊要目总览》,每四年修订一次,目前是 2012 版;
(2)“南大核心”:南京大学“中文社会科学引文索引(CSSCI)来源期刊”;
(3)中国科学技术信息研究所“中国科技论文统计源期刊”(又称“中国科技核心期刊”);
(4)中国社会科学院文献信息中心“中国人文社会科学核心期刊”;
(5)中国科学院文献情报中心“中国科学引文数据库(CSCD)来源期刊”;
(6)中国人文社会科学学报学会“中国人文社科学报核心期刊;
(7)万方数据股份有限公司的“中国核心期刊遴选数据库”。
分类:1根据载体把其分为印刷型、缩微型、机读型和声像型。 2.根据不同出版形式及内容,可以分为:图书、连续性出版物、特种文献理解: 一次文献,又称原始文献,是情报学中的一种主要文献,指以作者本人的工作经验、观察或者实际研究成果为依据而创作的具有一定发明创造和一定新见解的原始文献,如期刊论文、研究报告、专利说明书、会议论文、学位论文、技术标准等。 二次文献又称二级次文献,是对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等。它们都可用作文献检索工具,能比较全面、系统地反映某个学科、专业或专题在一定时空范围内的文献线索,是积累、报道和检索文献资料的有效手段. 三次文献也称三级文献,是选用大量有关的文献,经过综合、分析、研究而编写出来的文献。它通常是围绕某个专题,利用二次文献检索搜集大量相关文献,对其内容进行深度加工而成。是对现有成果加以评论、综述并预测其发展趋势的文献,属于这类文献的有综述、述评、进展、动态等,在文献调研中,可以充分利用这类文献,在短时间内了解所研究课题的研究历史、发展动态、水平等,以便能更准确地掌握课题的技术背景。1)文献信息检索是获取知识的捷径。掌握文献信息检索方法与技能,可以帮助人们快、准、全地获取所需知识,最大限度地节省查找时间,使文献信息得以充分的利用。 (2)文献信息检索是科学研究的向导。要进行有价值的科学研究,必须依赖文献检索,全面获取相关文献信息,及时了解各学科领域出现的新问题、新观点、以确定自己的研究起点和研究目标。 (3)文献信息检索是终身教育的基础。科技的迅速发展使知识的总量呈指数增长,而知识的陈旧速度也明显加快,这就要求人们具有终身教育的能力,这种能力在很大程度上就是获取新知识的能力,就是对新知识的敏感力和接受力,因而必须掌握文献信息检索的方法。终身学习的需要,是知识创新的需要。 文献检索工具的涵义及其类型 一、检索工具的涵义 检索工具是指用以报导,存贮和查找文献线索的工具。它是附有检索标识的某一范围文献条目的集合,是二次文献。一般说来,检索工具应具备以下五个条件: (1)明确的收录范围; (2)有完整明了的文献特征标识; (3)每条文献条目中必须包含有多个有检索意义的文献特征标识,并标明供检索用的标识; (4)全部条目科学地,按照一定规则组织成为一个有机整体; (5)有索引部分,提供多种必要的检索途径。 二、检索工具的类型 目前可供人们使用的检索工具有很多,不同的检索工具各有特点,可以满足不同的信息检索的需求检索工具有不同的分类方法,按加工文献和处理信息的手段不同可分为:手工检索工具和机械检索工具。按照载体形式不同可分为:书本式检索工具,磁带式检索工具,卡片式,缩微式,胶卷式检索工具。按照著录格式的不同可将检索工具分为以下四种类型。 1、目录型检索工具 目录型检索工具是记录具体出版单位,收藏单位及其他外表特征的工具。它以一个完整的出版或收藏单位为著录单元,一般著录文献的名称、著者、文献出处等;目录的种类很多,对于文献检索来说,国家书目,联合目录,馆藏目录等尤为重要。 2、题录型检索工具 题录型检索工具是以单篇文献为基本著录单位来描述文献外表特征(如文献题名,著者姓名,文献出处等),无内容摘要,是快速报道文献信息的一类检索工具。它与目录的主要区别是著录的对象不同。目录著录的对象是单位出版物,题录的著录对象是单篇文献。 3、文摘型检索工具 文摘型检索工具是将大量分散的文献,选择重要的部分,以简炼的形式做成摘要,并按一定的方法组织排列起来的检索工具。按照文摘的编写人,可分为著者文摘和非著者文摘。著者文摘是指按原文著者编写的文摘;而非著者文摘是指由专门的熟悉本专业的文摘人员编写而成。就其摘要的详简程度,可分为指示性文摘和报导性文摘两种。指示性文摘以最简短的语言写明文献题目,内容范围,研究目的和出处,实际上是题目的补充说明,一般在100字左右;报导性文摘以揭示原文论述的主题实质为宗旨,基本上反映了原文内容,讨论的范围和目的,采取的研究手段和方法,所得的结果或结论,同时也包括有关数据,公式,一般e线图情() 4、索引型检索工具 索引型检索工具是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元,如书名,刊名,人名,地名,语词等,按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具 。索引的类型是多种多样的,在检索工具中,常用的索引类型有:分类索引;主题索引;关键词索引;著者索引等。 ---------------- 基础知识(一)>>文献检索知识>>文献检索的方法、途径及程序 一、文献检索方法 查找文献的方法分为如下三种: 1、直接法 直接法是指直接利用检索工具(系统)检索文献信息的方法,这是文献检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。 (1)顺查法 顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。 (2)倒查法 倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。 (3)抽查法 抽查法是指针对项目的特点,选择有关该项目的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。 2、追溯法 追溯法是指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简便的扩大情报来源的方法。它还可以从查到的“引文”中再追溯查找“引文”,像滚雪球一样,依据文献间的引用关系,获得越来越多的内容相关文献。 3、综合法 综合法又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足要求时为止。 综合法兼有常用法和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。对于查新工作中的文献检索,可以根据查新项目的性质和检索要求将上述检索方法融汇在一起,灵活处理。 二、文献检索途径 检索途径也称检索入口,文献的特征是存储文献的依据,也是检索文献的依据,因此,文献特征便构成了检索途径。一般来讲,检索途径可以分为以下四种:分类途径、主题途径、著者途径和其他途径。 1、分类途径 分类途径是指按照文献资料所属学科(专业)类别进行检索的途径,它所依据的是检索工具中的分类索引。 分类途径检索文献关键在于正确理解检索工具的分类表,将待查项目划分到相应的类目中去。一些检索工具如《中文科技资料目录》是按分类编排的,可以按照分类进行查找。 2. 主题途径 主题途径是指通过文献资料的内容主题进行检索的途径,它依据的是各种主题索引或关键词索引,检索者只要根据项目确定检索词(主题词或关键词),便可以实施检索。 主题途径检索文献关键在于分析项目、提炼主题概念,运用词语来表达主题概念。主题途径是一种主要的检索途径。 3. 著者途径 著者途径是指根据已知文献著者来查找文献的途径,它依据的是著者索引,包括个人著者索引和机关团体索引。 4. 其他途径 其他途径包括利用检索工具的各种专用索引来检索的途径。专用索引的种类很多,常见的有各种号码索引(如专利号、入藏号、报告号等),专用符号代码索引(如元素符号、分子式、结构式等),专用名词术语索引(如地名、机构名、商品名、生物属名等)。 三、文献检索程序 文献检索工作是一项实践性和经验性很强的工作,对于不同的项目,可能采取不同的检索方法和程序。检索程序与检索的具体要求有密切关系,大致可分为以下几个步骤。 1. 分析待查项目,明确主题概念 首先应分析待查项目的内容实质、所涉及的学科范围及其相互关系,明确要查证的文献内容、性质等,根据要查证的要点抽提出主题概念,明确哪些是主要概念,哪些是次要概念,并初步定出逻辑组配。 2. 选择检索工具,确定检索策略 选择恰当的检索工具,是成功实施检索的关键。选择检索工具一定要根据待查项目的内容、性质来确定,选择的检索工具要注意其所报道的学科专业范围、所包括的语种及其所收录的文献类型等,在选择中,要以专业性检索工具为主,再通过综合型检索工具相配合。如果一种检索工具同时具有机读数据库和刊物两种形式,应以检索数据库为主,这样不仅可以提高检索效率,而且还能提高查准率和查全率。为了避免检索工具在编辑出版过程中的滞后性,还应该在必要时补充查找若干主要相关期刊的现刊,以防止漏检。 3. 确定检索途径和检索标识 一般的检索工具都根据文献的内容特征和外部特征提供多种检索途径,除主要利用主题途径外,还应充分利用分类途径、著者途径等多方位进行补充检索,以避免单一种途径不足所造成的漏检。 4. 查找文献线索,索取原文 应用检索工具实施检索后,获得的检索结果即为文献线索,对文献线索进行整理,分析其相关程度,根据需要,可利用文献线索中提供的文献出处,索取原文。 文献检索工作是一项实践性和经验性很强的工作,对于不同的项目,可能采取不同的检索方法和程序。检索程序与检索的具体要求有密切关系,大致可分为以下几个步骤。 1. 分析待查项目,明确主题概念 首先应分析待查项目的内容实质、所涉及的学科范围及其相互关系,明确要查证的文献内容、性质等,根据要查证的要点抽提出主题概念,明确哪些是主要概念,哪些是次要概念,并初步定出逻辑组配。 2. 选择检索工具,确定检索策略 选择恰当的检索工具,是成功实施检索的关键。选择检索工具一定要根据待查项目的内容、性质来确定,选择的检索工具要注意其所报道的学科专业范围、所包括的语种及其所收录的文献类型等,在选择中,要以专业性检索工具为主,再通过综合型检索工具相配合。如果一种检索工具同时具有机读数据库和刊物两种形式,应以检索数据库为主,这样不仅可以提高检索效率,而且还能提高查准率和查全率。为了避免检索工具在编辑出版过程中的滞后性,还应该在必要时补充查找若干主要相关期刊的现刊,以防止漏检。 3. 确定检索途径和检索标识 一般的检索工具都根据文献的内容特征和外部特征提供多种检索途径,除主要利用主题途径外,还应充分利用分类途径、著者途径等多方位进行补充检索,以避免单一种途径不足所造成的漏检。 4. 查找文献线索,索取原文 应用检索工具实施检索后,获得的检索结果即为文献线索,对文献线索进行整理,分析其相关程度,根据需要,可利用文献线索中提供的文献出处,索取原文。
13、劳动工资综合统计信息系统设计与开发 14、原材料、能源综合统计信息系统设计与开发 15、财务综合统计信息系统设计与开发 16、财政收支综合统计信息系统设计与开发 17、城镇居民生活收支综合统计信息系统设计与开发 18、农村住户收支综合统计信息系统设计与开发 19、外贸进出口综合统计信息系统设计与开发 20、科技统计综合统计信息系统设计与开发 21、对外经济贸易综合统计信息系统设计与开发 22、金融保险综合统计信息系统设计与开发 23、教育综合统计信息系统设计与开发 24、文化事业综合统计信息系统设计与开发 25、卫生医疗综合统计信息系统设计与开发 26、社会福利综合统计信息系统设计与开发 27、劳动力资源综合统计信息系统设计与开发 28、自然资源综合统计信息系统设计与开发 29、企事业单位人力资源综合统计信息系统设计与开发 30、企事业单位设备综合统计信息系统设计与开发 31、企事业单位资产负债综合统计信息系统设计与开发 32、企事业单位财务收支(损益表)综合统计信息系统设计与开发 33、高校教师教学科研综合统计信息系统设计与开发 34、贸易企业商品采购综合统计信息系统设计与开发 35、贸易企业商品销售综合统计信息系统设计与开发 36、工业产品数据库设计与开发 37、高校招生信息检索系统设计与开发 38、大学生就业信息检索系统设计与开发 39、人才需求信息检索系统设计与开发 40、专业文献信息检索系统设计与开发 41、报刊信息检索系统设计与开发 42、商业银行存取款信息系统分析与设计 43、某医院门诊预约系统设计与开发 45、某课程网上考试系统设计与开发 46、某医院床位安排系统设计与开发 47、某区房屋出租信息系统设计与开发 48、某企业设备监控管理系统设计与开发 49、某小区车辆管理系统设计与开发
1、论文题目:要求准确、简练、醒目、新颖。 2、目录:目录是论文中主要段落的简表。(短篇论文不必列目录) 3、提要:是文章主要内容的摘录,要求短、精、完整。字数少可几十字,多不超过三百字为宜。 4、关键词或主题词:关键词是从论文的题名、提要和正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。 每篇论文一般选取3-8个词汇作为关键词,另起一行,排在“提要”的左下方。 主题词是经过规范化的词,在确定主题词时,要对论文进行主题,依照标引和组配规则转换成主题词表中的规范词语。 5、论文正文: (1)引言:引言又称前言、序言和导言,用在论文的开头。 引言一般要概括地写出作者意图,说明选题的目的和意义, 并指出论文写作的范围。引言要短小精悍、紧扣主题。 〈2)论文正文:正文是论文的主体,正文应包括论点、论据、 论证过程和结论。主体部分包括以下内容: a.提出-论点; b.分析问题-论据和论证; c.解决问题-论证与步骤; d.结论。 6、一篇论文的参考文献是将论文在和写作中可参考或引证的主要文献资料,列于论文的末尾。参考文献应另起一页,标注方式按《GB7714-87文后参考文献著录规则》进行。 中文:标题--作者--出版物信息(版地、版者、版期):作者--标题--出版物信息 所列参考文献的要求是: (1)所列参考文献应是正式出版物,以便读者考证。 (2)所列举的参考文献要标明序号、著作或文章的标题、作者、出版物信息。
直接去看看(临床医学进展)上的文献吧
我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之!2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁’时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[’“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔’3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔’41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词……………………………………太长 发不全 希望对你有用 实在不行联系我(给我留言)我发给你邮箱。
我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。
网络信息检索方法与应用这个原创。联系看我资料