现代信息检索论文: 现代信息检索方法的探讨 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。 一、布尔检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。 下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。 检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。 二、信息检索 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。 信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。 目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索 知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。 知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。
“信息资源共享”课程检索报告一 检索课题数字图书馆个性化服务研究现状二 主题分析随着数字图书馆建设和网络通讯技术的高速发展, 数字资源越来越多, 而人们获取所需资源的可能性则越来越少, 用户需求的专业化、垂直化激化了数字图书馆大量信息数据库与用户需求之间的矛盾。1999 年, 美国图书馆与信息技术联合会(LITA) 10 位著名的数字图书馆专家在研讨会上, 把个性化定制服务列为数字图书馆发展的7 大趋势之首。目前, 数字图书馆个性化的信息服务已经开始得到普遍的关注, 人们正在为提供个性化信息服务做出努力的尝试。数字图书馆个性化服务是近几年数字图书馆研究中受到关注较多的一个研究方向,数字图书馆个性化服务是基于信息用户的信息使用行为,习惯,偏好,特点及用户特定的需求,来向用户提供满足其个性化需求的信息内容和系统功能的一种服务。关于数字图书馆个性化服务研究现状,该主题涉及到:(1)数字图书馆个性化服务的有哪些介绍(2)数字图书馆个性化服务的模式有什么(3)数字图书馆个性化服务的技术研究有哪些(4)数字图书馆个性化服务研究的最新进展(2005年-2007年)三 检索情况(一)检索工具1.维普中文期刊数据库 (1989-2007)2.中国期刊全文数据库 (1994-2007)(二)检索过程1.检索途径 关键词 题名 主题词2.检索用词 数字图书馆 关键词或题名、主题词 个性化服务 关键词或题名、主题词3.检索策略(1)维普中文期刊数据库(题名或关键词=数字图书馆)*(题名或关键词=个性化服务) 在高级检索中选择题名或关键词字段,输入“数字图书馆”和“个性化服务”两个检索词进行限定,年代限定在2005-2007年,共检索出78条记录。(2)中国期刊全文数据库(题名或关键词=数字图书馆)* (题名或关键词=数字图书馆)在高级检索中选择篇名字段,输入“数字图书馆”与“个性化服务”,年代限定在2005-2007,共检出89条记录。四 检索结果分析(一) 检索结果经检索上述两个数据库,有关数字图书馆个性化服务的研究论文众多,现选出其中具有代表性,研究主题未重复的文献。1.中国期刊全文数据库(1) 数字图书馆个性化信息服务系统研究 刘燕平 图书情报工作 2006/S2(2) 数字图书馆个性化服务系统分类体系问题 叶红 科技信息(学术研究) 2007年13期(3) 浅析智能搜索引擎技术及其在数字图书馆个性化信息服务中的应用 王林廷 高校图书情报论坛 2006年01期(4)数据挖掘技术在数字图书馆个性化服务中的应用 朱冰冰 科技情报开发与经济 2006年24期(5)数字图书馆个性化信息服务发展研究 马维华 郑州大学学报(哲学社会科学版) 2006年06期(6) 智能推送技术在数字图书馆个性化服务中的应用 石岩 情报探索 2006年11期(7) 基于文本过滤的数字图书馆个性化服务技术 张帆 计算机工程与应用 2006年31期(8) 数字图书馆信息门户的个性化服务模式 何平 中国信息导报 2006年08期(9) 网络信息技术下的数字图书馆个性化服务 张丹 林区教学 2006年07期(10)MyLibrary——数字图书馆个性化服务新趋势 杨华 农业图书情报学刊 2006年08期(11)基于Web服务组合的数字图书馆个性化动态定制服务构建 张晓青 情报学报 2006年03期(12)校园网中数字化图书馆个性化服务的实现 朱江峰 科技经济市场 2006年01期(13)数字图书馆的个性化推送服务 白雪松 图书馆杂志 2005年09期(14)Web日志挖掘在数字图书馆个性化服务中的应用 王英培 科技情报开发与经济 2005年22期(15)国内外数字图书馆个性化信息服务系统的功能与特征比较研究 张俊 情报理论与实践 2005年06期(16)基于知识管理的数字图书馆个性化服务机制研究 郭琳 四川图书馆学报 2004年05期2.维普中文期刊数据库(17)基于Web挖掘的数字图书馆个性化技术研究 王艳 张帆 情报杂志 2007年1期(18)基于文本过滤的数字图书馆个性化服务技术 张帆 杨炳儒 计算机工程与应用 2006年31期(19) 数字图书馆信息门户的个性化服务模式 何平 陈有志 中国信息导报 2006年8期(20)个性化服务深度与广度解决方式探讨 刘月胜 数字图书馆论坛 2006年6期(21)个人数字图书馆模式的分析 石德万 李军 现代情报 2005年9期(22)数字图书馆个性化信息环境与服务构建 杜安平 韶关学院学报 2005年3期(23)数字图书馆个性化信息服务的技术实现 张云瑾 许春漫 农业图书情报学刊 2005年6期(24)个性化信息服务的模式研究及策略分析 杜春光 国家图书馆学刊 2005年2期(二) 检索结论文献一论述了个性化信息服务的涵义,阐述数字图书馆开展个性化信息服务的有利条件,国内外图书馆的有关研究开发状况,分析国内数字图书馆个性化信息服务系统应用实例,并时其工作流程,主要功能进行剖析,指出该系统目前存在的问题,提出改进对策。文献二围绕数字图书馆个性化服务系统分类体系问题展开探讨。首先,简要介绍数字图书馆个性化服务系统的主要内容,包括其定义和服务内容。其次,从用户分类和信息分类两个方面阐述目前数字图书馆个性化服务系统存在的问题。用户分类主要存在的两个问题,根据用户特点分析提出相应建议。信息分类问题从五个方面进行讨论,列举数字图书馆个性化服务系统页面进行分析,提出解决方法。文献三介绍了智能信息检索的实质和发展方向,是智能搜索引擎技术的不断改进和广泛应用。以这一技术为基础构建数字图书馆的个性化服务系统,是数字图书馆信息服务的现实需要。文章论述了当前搜索引擎存在的不足,概述了智能搜索引擎的原理机制及其优越性,探讨了该技术在数字图书馆个性化服务中的应用。文献四阐述了数字图书馆的定义,介绍了个性化服务的工作原理和国内外个性化服务系统的现状,探讨了分类模型、关联模型、序列模型、聚类模型、回归模型以及时间序列模型的原理,对如何把其用在数字图书馆的个性化服务上以描述用户需求,提出了建议。文献五介绍了数字图书馆个性化信息服务是当今图书馆发展的重要趋势,目前国内外都已有比较成熟的数字图书馆个性化信息服务系统,服务方式及其功能也多种多样,但是探索图书馆个性化信息服务有效模式的任务仍很艰巨。文献六介绍了智能推送技术和个性化服务的内容,讨论了将智能推送技术应用于数字图书馆个性化服务,以及智能推送技术存在的优势与不足。文献七提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献八试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展建势。文献九简述了数字图书馆个性化服务的内涵,分析了网络信息技术对其各项服务的支撑,并通过My Library实例对这些具体技术的集成化运用加以探讨,为构建可互操作的数字图书馆个性化服务系统提供参考。文献十就My Library(我的图书馆)的产生,及其概念、类型、特征、原理、功能等诸方面做了简要的论述,并介绍了它在国内外的发展现状,指出其今后的发展方向。文献十一介绍了Web服务组合是一种利用现有Web服务动态构建新的能满足用户需求的复杂Web服务的Web服务技术。将数字图书馆各种资源组件、应用组件、功能组件和管理组件进行Web服务描述,人们就能利用Web服务组合技术根据用户的个性化需求实现对不同数字图书馆各种组件的动态集成,从而实现开放环境下数字图书馆的个性化动态定制服务。本文讨论了基于Web服务组合的数字图书馆个性化动态定制服务的基本系统架构、构建模型,并对构建过程中需要注意的几个问题展开了讨论。文献十二介绍了数字化图书馆建设是图书信息化发展的必然,而个性化服务能够根据用户不同的特点,提供切实的服务,以更好地为读者服务。本文对数字化图书馆的个性化服务进行了讨论,分析了关键的实现技术,并给出了部分核心代码。文献十三介绍了个性化推送服务是数字图书馆研究的热点,也是建设数字图书馆的关键问题之一。本文针对各种不同的信息形式提出了相应的实现方案,并对实际操作中的几个难点事项做了简要讨论。文献十四介绍了Web日志挖掘的基本概念和过程,指出通过对读者在数字图书馆服务中留下的日志信息进行挖掘,可以实现个性化服务,更好地满足不同类别读者的需求。文献十五从个性化信息服务的概念入手,介绍了个性化信息服务的几种类型,包括分类定制服务、信息推送服务、智能代理服务和垂直门户服务等,并介绍了目前国内外若干图书馆已经开展的个性化信息服务的典型应用实例。在此基础上总结了这些个性化信息服务系统的共同功能与特征,并进行了一些比较研究。文献十六介绍了构建一个基于信息过滤技术的信息服务系统是数字图书馆实现个性化信息服务的有效手段。通过对信息过滤技术概念的研究和与信息检索概念的比较,抽象出此类系统的一般模型,并沿用查全率和查准率评价信息过滤的效果,最后分析了个性化信息服务系统实现的关键技术。文献十七提出一种基于Web挖掘技术的个性化实现策略,针对数字图书馆资源的文献,改进了经典的算法,分别从Web内容挖掘、结构挖掘和日志挖掘出发,建立用户动态的兴趣特征模型,使之更具有实用性和针对性。文献十八提出在数字图书馆的应用中,个性化服务可以为用户提供符合其兴趣的检索结果。提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献十九试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展趋势。文献二十提出数字图书馆的个性化服务决定了它在借助网络技术的基础上向学科馆和联盟制方向发展,以提高资源的利用率和解决个性化服务的深度与广度问题。文献二十一根据个人数字图书馆文献信息资源存储位置的不同.把个人数字图书馆划分为远程个人数字图书馆和本地个人数字图书馆两种模式,着重对这两种模式的个人数字图书馆的功能特点进行比较分析。文献二十二提出构建数字图书馆的个性化信息服务实际上就是要在数字图书馆上实现个性化资料、个性化检索、个性化过滤、个性化服务等四种环境.数字图书馆可以开发个人图书馆、检索帮助、个性化信息咨询、信息代理、垂直门户等多种个性化信息服务。文献二十三阐述了数字图书馆个性化信息服务的概念、研究与应用的现状,并分析了实现数字图书馆个性化信息服务所需的技术。文献二十四强调个性化信息服务在数字图书馆中有其特定的定义,也是数字图书馆发展中的必需。根据网络环境下图书馆信息服务的内容及用户行为的不同,可以有多种个性化服务模式,有策略地开展服务。(三) 结果分析 从2005-2007年所发表的关于图书馆学个性化服务的论文可以看出,研究的主题和方向主要集中在以下几个方面:1. 数字图书馆个性化服务的概念研究。在中国期刊全文数据库检索到的89篇文章中,有40篇是论述图书馆个性化服务概念的研究。在这些文章中作者都对数字图书馆个性化服务概念有自己的认识,对于这个概念的研究也越来越深入。2. 数字图书馆个性化服务的方式研究。对于数字图书馆个性化信息服务模式, 也在摸索实践中。目前有以下几种方式:(1)信息分类定制服务方式。分定制是指信息用户可以按照自己的目的和需求,在某一特定的系统功能和服务形式中,自己设定信息的资源类型、表现形式,选取特定的系统服务功能等。(2)信息推送服务方式。是运用推送技术(push technology)来实现的一种个性化主动信息服务的方式。(3)信息智能代理服务方式。它是一种能够完成委托任务的计算机系统,能模仿人的行为执行一定的任务,不需要或很少需要用户的干预和指导。通过跟踪用户在信息空间中的活动,自动捕捉用户的兴趣爱好,主动搜索可能引起用户兴趣的信息并提供给用户。(4)信息垂直门户服务方式。通过汇聚网上某一特定专题信息资源并对其进行挖掘及加工,以满足用户基于专业的深入的信息需求。(5)信息帮助检索服务方式。如何帮助用户进行高效的信息检索也是当今数字图书馆信息服务向纵深发展的一个重要内容。(6)数据挖掘服务方式。从数据库中发掘人们感兴趣的知识,这些知识是隐含的、潜在的,目的是帮助用户寻找数据间潜在的关联。(7)信息呼叫中心服务方式。主要利用电话、传真等方式来服务客户,处理简单的呼叫流程。在这些方式中,现在比较热门的个人图书馆(My library)是上述部分个性化服务方式的具体应用,是当前开发应用较为成熟的图书馆个性化服务模式系统,也是一个完全个性化的私人信息空间。3.数字图书馆个性化服务关键技术研究。数字图书馆个性化信息服务的应用技术, 集现代信息技术之大成。它包括推送技术、智能代理技术、智能搜索引擎技术、网页动态生成技术、数据挖掘技术、信息过滤技术、过程跟踪技术、安全身份认证技术、数据加密技术等, 这些都可以为数字图书馆的个性化服务方式提供技术支持。4.国内外数字图书馆个性化服务现状研究。还有一部分论文是主要介绍当今国内外数字图书馆个性化服务的现状,通过介绍这些先进的技术和模式来指导我国数字图书馆个性化的服务。5.其他研究。除了数字图书馆个性化信息服务的概念、模式、技术和国内外研究现状外, 数字图书馆个性化信息服务的研究还就数字图书馆个性化信息服务的模型构建、用户评价、馆员角色的变化、存在的问题与对策等作了深入探讨。综上所述,这两年国内有关数字图书馆个性化服务的研究可谓是硕果累累,随着对数字图书馆个性化信息服务理论研究和实践的不断深入,我国数字图书馆个性化信息服务一定能够真正实现以用户需求为中心, 利用数字图书馆信息资源开展不同层次的、多种类型的、满足用户个性需求的有效信息服务。五 检索情况总结由于这个学期开了数字图书馆这门课,对于数字图书馆有一些简单的了解,特别是对个性化信息服务这部分内容有兴趣,课本上涉及得比较少,所以就把这个内容作为了检索主题。在选择检索工具时选择了平时最常用的两个检索工具,本来还选用了中文Google,想找一下国内在研究这个主题的项目或者网站,但是检索到的内容数量实在太庞大,而且检索到的大量结果都来自各个数据库的论文,最后就放弃了使用搜索引擎。在构造检索策略时,因为该主题比较简单,不用构造很复杂的检索式,就选择了“数字图书馆”和“个性化服务”作为关键词,开始有想到是不是需要使用与“数字图书馆”概念相近的“电子图书馆”或者“虚拟图书馆”,但考虑到国内现在已经比较统一的使用“数字图书馆”这个概念,使用其他两个词检索到的文章不多,所以还是以数字图书馆为重点。检索途径选择了关键词,题名以及主题词,在使用中国期刊全文数据库进行检索时,一开始是使用关键词作为检索途径,检索出423条记录,但是有很多文章与该主题相关度不高,所以采用了篇名作为检索途径,这样两个词同时限定在文章题名中,检索的相关度就非常高,但也可能会造成漏检。觉得自从学习检索课程以来,检索最难的就是检索式的构造,检索式构造的好与坏,直接关系到检索结果的好坏。维普提供的字段有题名或关键词字段,使用高级检索将两个检索词都限定在这个字段中,检索出来的结果相对比较精确。检索完成之后,接下来的工作就是分析检索结果,这其实也是难度挺大的一项任务,要看完150几篇文章不是一件简单的事,文摘和篇名这个时候就帮了很大的忙了,一般看文摘可以略知一二,需要了解详细内容的再打开全文阅览。从文章中归纳出研究的主要内容和方向,找出比较有特色而又不重复的内容,最后再整理出结论,这就是我整个辛苦但却有趣的检索过程。通过完成这次作业,首先就是复习与巩固了以往的知识,平时虽然也经常在进行检索,但是严格按照检索步骤进行的就不太多,也没有这么有条理的对整个检索过程做一个安排,并按照计划一步一步的执行,直到完成检索结果。其次就是以往做作业都是完成老师布置的具体任务,有些题目比较简单或是比较有兴趣的检索起来还好,有些比较深奥的主题做起来真的十分困难,没有专业背景,拿到题目和检索出来的结果就觉得十分茫然。而这次老师让我们自己选择题目,我就可以从自己的兴趣和想了解的领域下手,这样完成作业的过程也不再那么枯燥,兴致自然也大了很多。还有最重要的是,做作业的目的不只是完成作业,更重要的是有收获,巩固了检索知识自不用说,通过这次阅读大量文章,也算对所检索的主题有了一个大概的认识和了解,增长了知识,开阔了视野,可是说从完成这次检索作业中的确是收获不少。
我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。
《大数据技术对财务管理的影响》
摘 要:大数据可以快速帮助财务部门建立财务分析工具,而不是单纯做账。大数据应该不仅仅局限于本单位的微观数据,更为重要的关注其他单位的宏观数据。大数据技术不仅带来了企事业单位财务数据搜集的便利和挑战,而且也衍生出了诸多关于单位人员个人信息保密等问题的积极探索。本文主要研究大数据技术(meta-data或big data)对企业或事业单位财务管理的影响,以期为财务数据管理的安全性提供一种分析的依据和保障。
关键词:大数据;财务管理;科学技术;知识进步
数据是一个中性概念。人类自古以来几千年的辉煌变迁,无外乎就是数据的搜集和使用过程而已。纵观古今中外的人际交流与合作,充满着尔虞我诈和勾心斗角,那么他们在争什么呢?实际上是在争夺信息资源;历史上品相繁多的战争,实际上不是在维持什么所谓的正义和和平,抑或为了人间的正道,而是在争夺数据的使用权;“熙熙攘攘皆为利往、攘攘熙熙皆为利来”的世俗变迁逻辑已经让位于数据游戏的哲学法则。人类自英国产业革命以来所陆续发明的技术,尽管被人们美其名曰“第四次科技革命的前沿技术”,实际上不过就是“0”和“1”两个数字的嬉戏而已。正如有学者指出的,汽车技术、生命科学技术、基因技术、原子能技术、宇宙航天技术、纳米技术、电子计算机技术,看起来美轮美奂,实则隐含着杀机,那就是由于人们把技术当成了目的后,导致了“技术专制”后的“技术腐败”和“技术灾难”。人类一方面在懒惰基因的诱惑下,发明了诸多所谓的机械装置,中国叫“机巧”;另一方面又在勤奋的文化下,发明了诸多抑制懒惰的制度和机制。本来想寻求节俭,结果却越来越奢侈;本来想节约,结果却越来越浪费;本来想善良,结果却越来越邪恶;本来想美好,结果却越来越丑陋。正如拉美特里所说:“人是什么?一半是天使,一半是野兽。当人拼命想成为天使的时候,其实他会逐渐变成野兽;当人想极力崇拜野兽的时候,结果会逐渐接近天使。”我们不是在宣讲宿命的技术,我们只是在预测技术的宿命。本文主要研究大数据技术(meta-data或big data)对企业或事业单位财务管理的影响,以期为财务数据管理的安全性提供一种分析的依据和保障。
一、大数据技术加大了财务数据收集的难度
财务数据的收集是一个复杂的系统工程,国际上一般采用相对性原则,即首先利用不完全统计学的知识对数据进行初步的计算,接着对粗糙的数据进行系统的罗列,最后对类型化的数据进行明分梳理。使用者如果想进入该数据库,就必须拥有注册的用户名和密码。由于国际上对于网络数据的监督均采取了实名注册的模式,所以一旦该用户进入到核心数据库之后想窃取数据,一般都会暴露自己的bug地址源,网管可以循着这一唯一性存留,通过云计算迅速找到该网络终端的IP地址,于是根据人机互动原理,再加上各种网吧所安装的监控平台,可以迅速找到数据库的剽窃者。如果按照上述数据变迁逻辑,那么财务数据的收集似乎变得易如反掌,而事实并非如此。因为:①数据的量化指标受制于云计算服务器的安全性。当云服务器受到不可抗力的打击,如地震、水患、瘟疫、鼠疫、火灾、原子能泄露或各种人为破坏的作用,数据会呈现离散型散落。这时的数据丢失会演变成数字灾难;②各种数据版权的拥有者之间很难实现无缝隙对接。比如在经过不同服务器的不同数据流之间,很难实现现实意义上的自由流通。正如专家所指出的,教育服务器的事业单位的人员数据、行政部门人事管理部门的保密性数据、军事单位的军事数据、医疗卫生事业的数据、工商注册数据、外事数据等在无法克服实际权力的分割陷阱之前,很难实现资源的共享,这时对数据的所谓搜集都会演化为“不完全抽样”的数字假象。由此而衍生的数据库充其量只是一部分无用的质料而已。
二、大数据技术影响了财务数据分析的准确性
对于搞财务管理的人来说,财务数据的收集只是有效实现资源配置的先决条件,真正有价值的或者说最为关键的环节是对财务数据的分析。所谓“财务数据分析”是指专业的会计人员或审计人员对纷繁复杂的单位人力资源信息进行“去魅”的过程。所谓“去魅”就是指去粗取精、去伪存真、由此及彼、由表及里、内外互联,彼此沟通、跨级交流、跨界合作。在较为严格的学术意义上,分析的难度广泛存在与财务工作人员的日常生活中。大数据技术尽管为数据的搜集提供了方便法门,但同时加大了财务人员的工作量和工作难度。原先只是在算盘或者草稿纸上就可以轻松解决的数据计算,现在只能借助于计算机和云图建模。对于一些借助于政治权力因素或者经济利益因素,抑或是借助于自身的人际关系因素上升到财务管理部门的职工来说,更大的挑战开始了。他们不知道如何进行数据流的图谱分析,不知道基于计算机软件技术的集成线路技术的跌级分类,不知道基于非线性配置的液压传动技术的模板冲压技术,不知道逆向网络模型来解决外部常态财务变量的可篡改问题。由于技术不过硬,导致了领导安排的任务不能在规定的时间内完成,即时仓促做完的案例,也会因为数据分析技术的落后而授人以柄,有的脾气不好的领导可能会大发雷霆;脾气好的领导只是强压着内心的怒火,那种以静制动的魄力和安静更是摄魂夺魄。所以说数据分析难度的增加不是由于财务人员的良心或善根缺失,在很大程度上是由于技术的进步和大数据理念给我们带来的尖锐挑战。对于普通的没有家庭和社会背景的财务管理人员来说,能做的或者说唯一可做的就是尊重历史发展的周期律,敬畏生生不息的科学革命,认真领会行政首长的战略意图,提升自己的数据分析技术,升华在自身的“硬实力”。否则觊觎于领导的良心发现和疏忽大意,期望技术的静止或者倒退,抑或是在违法犯罪之后天真的认为可以相安无事,可能都只会落得“恢恢乎如丧家之犬”的境遇。
三、大数据技术给财务人事管理带来了挑战
一个单位的财务人事管理牵扯到方方面面的问题,其意义不可小视。一般来讲,单位在遴选财务管理部门管理人员的时候,大多从德才绩行四个方面全面权衡。然而这种“四有标准”却隐含着潜在的危机和不可避免的长远威胁,这其中的缘由就在于人性的复杂性和不可猜度性。历史和现实一再告诉人们,单纯看眼前的表现和话语的华丽,不仅不能对人才的素质进行准确的评价,而且还会导致官员的远期腐败和隐性腐败。对于中国的腐败,国人大多重视了制度和道德的缘起,却往往忽视了财务管理的因素。试想如果财务管理人员牢牢践行“焦裕禄精神”,不对任何政治权力开绿灯,国有资产又如何流出国库而了无人知晓呢?事实上,中国的所有腐败,不论是国有资产的国外流失抑或是国内流失,都在很大程度上与财务人员有关,可能有些管理人员会强调那不是自己的责任,出纳签字是领导的授意,会计支出费用那是长官的意思清晰表示。实际上,处于权力非法授予的签字、盖章、取现、流转和变相洗钱都是违法的,甚至是犯罪的。间接故意也是应当追究责任的。值得高兴的是,伴随着数字模拟技术的演进,财务管理中的腐败现象和人事管理科学化问题得到了极大的改善,相关领导伸手向财务要钱的行为,不仅会受到数据进入权限的限制,而且还会受到跟数据存留的监控,只要给予单位科技人员以足够的权限,想查找任何一笔资金的走向就变得非常简单,而且对于每一笔资金的经手者的信息也会了如指掌。这在一定程度上减少了只会指挥、不懂电脑的首长的孵化几率。
四、大数据技术加大了单位信息保密的难度
IMA(美国注册会计师协会)研发副总裁Raef・Lawson博士曾经指出:“客观上讲,大数据技术的正面效用是非常明显的,但一个不容回避的事实是大数据技术为财务信息的安全性提出了越来越严峻的挑战。我们已经注意到,在欧洲大陆、美洲大陆已经存在基于数据泄露而产生的各种抗议活动,这些活动牵扯到美国的数据窃听丑闻、俄罗斯对军事数据的强制性战友举动、以色列数据专家出卖阿拉伯世界经济数据的案件、在东方的中国香港一部分利用数据的窃取而发家致富的顶尖级黑客专家。”在数据集成的拓扑领域,大数据技术的保密性挑战肇始于蚁群算法的先天性缺陷。本来数据流的控制是依靠各种所谓的交易密码,实际上这些安全密码只是数据的另一种分类和组合而已。在数据的非线性组合和线路的真空组装模式下,任何密码都只是阻挡了技术侏儒的暂时性举动,而没有超出技术本身的惰性存在。当一个hacker掌握了源代码的介质性接洽技术之后,所剩下的就是信息和数据的搜集了,只要有足够的数据源,信息的户的几乎是轻而易举的。
2003年,北京的一家名为飞塔公司的防火墙安全软件在中关村科技城闪亮上市。该安全控制软件的开发者随机开发了一款名曰MAZE天网的软件,并且采用了“以其之矛攻其之盾”的攻防策略。测试的结果是尽管maze的源代码采用了24进制蝶形加密技术,但 FortiGate防火墙技术仍然能够阻挡住善意木马对电脑终端用户信息的剽窃和非法利用。FortiWeb已经通过全球权威的ICSA认证,可以阻断如跨站脚本、SQL注入、缓冲区溢出、远程文件包含、拒绝服务,同时防止敏感数据库外泄,为企事业单位Web应用提供了专业级的应用安全防护。飞塔公司之所以耗费人力和物力去开发这一新型的换代产品,就在于大数据时代对单位信息保密性的冲击。试想,如果一个单位连职工最起码的个人信息都不能安全存储的话,那么财务管理的科学性和人本性将从何谈起?只能说,即使在人权保护意识相对薄弱的法治环境里,我们也应该尽量提升自己的保密意识,加强对个人信息的保护和合理运用。
作者简介:田惠东(1967- ),女,汉族,河北定兴人,副高级会计师,本科学历,研究方向:财务管理,单位:保定市第一医院
基于大数据的视觉搜索应用与组织模式研究当前视觉搜索已成为信息科学领域的前沿课题,主要用于分析和研究现实世界实体属性、行为、事件与视觉大数据资源之间的发展规律,针对视觉大数据资源的获取、组织、描述与利用问题,研究视觉资源及其时空关联信息之间的价值发现与资源整合的内在机理当前视觉搜索已成为信息科学领域的前沿课题,主要用于分析和研究现实世界实体属性、行为、事件与视觉大数据资源之间的发展规律,针对视觉大数据资源的获取、组织、描述与利用问题,研究视觉资源及其时空关联信息之间的价值发现与资源整合的内在机理,解决其多维关联与协同融合问题,进而实现视觉大数据资源的有效整合、知识发现与实时交互。基于此,本研究从宏观与中观角度,从信息科学视角下视觉搜索研究的起源着手,对其发展历程、概念与特点进行描述,围绕其理论与应用研究的几个关键问题展开讨论,并简要探讨其最新研究进展及应用。1、大数据环境下视觉搜索的发展历程及特点1.1 问题的提出视觉搜索不是一个新名词,它最早出现于心理学与生理学领域,用于描述人们通过视觉通道在特定区域内检测某特定目标是否出现或出现后确定其位置的行为。如在地图上找某大学所处位置、在食堂内点菜、在书架上找书或在图书馆内找人等。在现实世界中,人们经常需要利用视觉搜索在复杂物理环境中获取有价值的信息,来决定接下来的语言和行为。因此,视觉搜索理论受到心理学家和人因(HumanFactors)学家的广泛关注,大量研究集中在对人类视觉认知、生理反馈机理的理解与表达上,并总结出了许多应用型和理论型知识。正是由于视觉搜索的可用性和有效性,使得许多工作、行业、领域都离不开这一生理行为。相关基础理论和关键技术的不断发展与完善,促使传统视觉搜索应用不断向信息化、技术化和网络化方向发展,如何将传统视觉搜索行为转换成“所见即所知”式视觉搜索模式,这一难题逐渐摆在了人们面前。与此同时,网络环境、信息技术、计算性能、存储空间、数据规模与软硬件设施等方面的飞速提升,也为客观物理世界与虚拟网络空间之间建立起密不可分的关联关系,使视觉搜索技术的实现成为可能。人们可以方便快捷地采集客观物理世界中的视觉对象,从互联网中获取与之相关的关联信息。1.2 视觉搜索发展历程及发展趋势近几年来,随着大数据环境的逐步完善和大数据技术的迅速发展,关于视觉资源整合与视觉搜索研究的呼声越来越大。Nature和Science分别于2008年、2011年出版了大数据专题研究,提出图像、视频与用户交互信息是未来大数据的重要组成部分。2009年,Stanford University的Griod、Chandrasekhar等学者将视觉搜索理论引入到信息检索领域,提出Visual Search、Mobile Visual Search等概念,举办了第一届移动视觉搜索研讨会,并对其体系结构、应用与服务模式等问题进行了探讨。2010年,Google技术研究部前主管Norvig在Nature上发表的专题论文2020Visions中指出,“文本、图像和视频等视觉资源及用户交互信息、传感信息的有机融合,会给搜索引擎带来巨大挑战,如何对视觉搜索结果进行资源深度整合将会成为Google未来10年面临的最大挑战。”同年,北京大学高文、黄铁军与段凌宇等将其引入国内,举办了第二届移动视觉搜索研讨会,并围绕其关键技术、体系结构、视觉资源组织与描述方法、视觉资源标准化与视觉知识库建设等问题展开了研讨。2012年,这一理论与技术迅速被中国计算机学会所接受,认为将视觉搜索与增强现实技术相结合的信息检索模式,将是继搜索引擎之后的新一代互联网服务范式。随后,张兴旺、朱庆华等尝试将其引入数字图书馆领域,并围绕相关理论与应用模式展开了研究。根据视觉搜索研究的发展轨迹来看,国内关于视觉搜索研究总体仍处于探索与尝试阶段,研究轨迹已基本跨过早期理论性尝试过程,正步入中期技术性和应用性探索阶段。尤其是在我国科学技术部于2011年启动国家重点基础研究发展计划(“973”计划)“面向公共安全的跨媒体计算理论与方法”,对跨媒体视觉资源的统一表示和建模方法、关联推理和深度挖掘、综合搜索和内容合成等关键科学问题进行研究之后,国内相关研究步入快速发展阶段。自2015年以来,视觉搜索理论与应用研究的重要性和必要性更加凸显,国务院2015年9月印发的《促进大数据发展行动纲要》提出,要充分利用大数据,提升领域数据资源的获取和利用能力,推动各类数据融合和资源整合。国务院2015年7月印发的《关于积极推进“互联网+”行动的指导意见》提出“构建包括语音、图像、视频、地图等数据的海量训练资源库,加强人工智能基础资源和公共服务等创新平台建设”。国家自然科学重大研究计划“大数据驱动的管理与决策研究”认为“大数据价值的产生机理和转换规律具有高度的应用领域依赖性”。科技部2016年发布的《关于发布国家重点研发计划精准医学研究等重点专项2016年度项目申报指南的通知》的“云计算和大数据重点专项”中更是明确将“面向大范围场景透彻感知的视觉大数据智能分析关键技术”列为重点研究内容之一,要求对视觉语义建模、视觉对象的时空定位与搜索、跨场景数据关联技术等展开研究。1.3 视觉搜索研究对象及视觉大数据资源特点视觉搜索的研究已逐渐发展成为信息检索领域的主要研究趋势,到目前为止,关于视觉搜索的定义尚未形成统一的认识,但从信息检索角度来看,大家对它的普遍理解是指将客观物理世界中的视觉资源作为检索对象,通过互联网去获取关联信息的一种信息检索方式。它是以视觉大数据资源及其关联信息为研究对象,以视觉大数据资源的获取、分析、组织、理解和表达方法为主要研究内容,以信息技术与方法为主要研究手段,以发现视觉大数据资源蕴含的知识价值和拓展其利用能力为主要研究目标的一种综合性的应用型前沿领域。它主要针对的是当前大数据环境下海量、多元异构、动态无序和高速进化的视觉资源的分析和利用问题,重点研究的是如何充分利用当前飞速发展的信息技术来解决视觉大数据资源的理解和表达,如何有效地实现视觉搜索,如何利用视觉搜索技术来从海量视觉大数据资源中发现新的知识。毫无疑问,未来是一个智慧(或称之为“互联网+”)的时代。智慧地球、智慧城市、智慧图书馆等理论与应用的迅速发展,给视觉搜索理论与应用研究提供了“沃土”。“互联网+”时代所衍生的数据规模的剧增,文本、图像、音视频、用户交互信息与各种传感信息会成为“数据海洋”的主流,而这些数据来源中超过80%来自于人类视觉通道,现阶段把握“互联网+”时代信息检索和知识服务未来发展脉络的最重要手段可能是视觉搜索。视觉大数据资源因其包含文本、图像、音视频与用户观看记录等复杂无序、动态变化的时空信息,使其成为数字图书馆中内容最丰富的信息载体,并将会成为“互联网+”时代最为重要的信息表达和信息传播媒介。而以视觉大数据资源为研究对象的视觉搜索,由于前者所处知识空间的知识实体与知识价值在时间、空间和属性三个方面的自有特性,使得视觉搜索也呈现出复杂无序、动态变化和时空语义关联等特性,同时也需要对视觉大数据资源的形式化表达、系统化组织、结构化描述与时空关联关系分析方法等进行研究。由此可得知视觉大数据资源主要具有以下特征:视觉大数据资源包含文本、图像、视频、用户观看信息及用户交互信息等时空信息,并且它所包含的视觉对象、事物内容、事件过程在时间、空间、语义等方面具有时序或时空关联关系。视觉大数据资源具有时空语义关联、动态变化、数据规模大和结构复杂等特点,这些基于视觉对象、事物内容、事件过程的动态变化可以用时空语义关联进行表达和描述,其获取、组织和描述过程可以用机器语言来进行表达,通过视觉对象、事物内容、事件过程之间的语义关联映射,建立视觉大数据资源的时空语义关联关系。视觉大数据资源具有数据规模大、结构复杂、类型多元、多维尺度关联和纵深纬度高等特性,可根据视觉大数据资源的时空语义关系建立对应的尺度关联机制。针对不同尺度、纵深纬度的视觉大数据资源的时空关联关系,可实现视觉对象、事物内容、事件过程之间的多维尺度转换和重置,进而实现视觉大数据资源的语义关联关系分析。视觉大数据资源能提供基于视觉资源内容来理解视觉对象行为,根据视觉对象的时空语义关联关系建立起发展趋势模型,并根据有效组织、理解和描述来预测某特定事物在某特定阶段将可能发生的行为态势。可针对视觉大数据资源的获取、组织、理解和描述问题,来实现用户与视觉大数据资源之间的实时交互、反馈和视觉对象知识库的构建。根据视觉对象的相似行为特征、时空关联关系和实时交互结果,来帮助人们制作、生产、运营和消费新的视觉资源,满足数字图书馆用户的多元化知识服务需求。2、大数据环境下视觉搜索的应用与组织模式视觉大数据资源经过组织、分析、处理和整合,并建立基于特定领域的数字图书馆视觉搜索平台之后,才能为用户提供大数据知识服务。不同学科、领域的视觉搜索模式对视觉大数据资源的获取、组织、处理与整合模式会有所不同。正因如此,当前大部分应用是从知识服务与信息检索角度,建立起领域导向的视觉大数据资源整合平台,通过视觉搜索来对视觉大数据资源进行有效管理与利用,并按照特定学科、专业和领域的知识服务需求来提供服务,从而满足各类大数据知识服务需求。2.1 基于深度学习的视觉搜索工业应用模式传统视觉搜索研究主要是先采用人工标注方法对视觉资源的底层特征进行标注后,再采用机器学习方法来解决视觉资源之间的语义鸿沟、异构鸿沟与语义关联之间的问题。基于人工标注的视觉大数据资源整合与利用方法,需要标注者拥有丰富的专业领域知识和工业应用经验,需耗费大量的时间和人力成本,且精确性低。与对视觉资源特征进行人工标注方法不同的是,深度学习一般都是通过对视觉资源特征进行多层神经网络训练后,进行视觉特征学习,进而获取到特征提取更合理、区分性更强的视觉特征理解和描述。大量研究证明通过深度分析方法所提取到的视觉特征在图像分类与识别、视觉场景识别、智能监控、语音识别、知识图谱构建等应用领域都获得过成功。视觉资源的显著性特征提取和分割方法,能够采用模拟人类视觉系统和生理认知体系来提取视觉资源中显著性特征区域。目前,性能相对最好的视觉资源特征提取方法在公开的视觉大数据资源数据集中的显著性特征检测准确率在95%左右,视觉资源前景特征分割准确率将近92%,这一比例在近几年全球性各类大规模视觉资源分析与识别比赛中,仍然在不断增加。比如,Google研究组在大规模视觉识别挑战赛(ILSVRC)中,采用改进的深度卷积网络Google Net将图像识别准确率提升到93%;Google小组在微软图像标题生成挑战赛(MS COCO ICC)中,采用基于深度分析的图像特征提取方法获得冠军;悉尼科技大学与卡耐基梅隆大学、微软亚洲研究院和浙江大学在THUMOS比赛中,均将深度分析方法与视觉对象运动特征结合起来对视觉资源进行动作识别,分别获得前三名。传统学术研究的理论成果往往需要很长一段时间发展,才能逐渐走向成熟,并进入到实际的工业应用中去。但无论是深度学习,还是视觉搜索,它们都拥有着极强的工程理论模型。一方面,它们在被学术界关注和研究的同时,也被工业领域所密切关注和尝试;另一方面,由于工业领域(如Google、百度、微软等)早就拥有着大规模的视觉大数据资源,且一直活跃在诸多信息科学领域的研究前沿,在很多领域,它们相较于学术界更有优势。如Google的知识图谱Knowledge Graph,Google Now与Google街景地图,微软的语音助手Cortana,爱奇艺的爱奇艺大脑,Facebook的Graph Search等均属于工业界视觉搜索较为经典的应用案例。事实上,国外工业界各大公司,如Google,Facebook,Microsoft等对视觉搜索不仅仅只是开展大量的研究,甚至还在内部成立了专门研究机构,国内的百度、华为、腾讯和阿里巴巴也不例外。2.2 基于知识计算的视觉搜索知识服务模式数字图书馆领域对视觉搜索理论与应用展开研究的一个重要目的,就是为高校和科研机构的研究人员提供嵌入式协作化的知识服务,而数字图书馆视觉搜索平台是将海量视觉大数据资源与平台提供的视觉大数据资源的组织、分析和处理功能嵌入到知识服务过程中。视觉大数据资源整合与利用是当前国内外人工智能、信息检索领域的研究热点,拥有非常广泛的应用与研究前景。事实上,图像搜索作为视觉搜索的一个研究分支方向,近几年来,国内已有很多个人(如中国科学院高科、北京大学高文与黄铁军、南京大学朱庆华)、机构(如浙江大学、清华大学、北京大学、中国科学院计算所等)、企业(如爱奇艺、百度、腾讯、360、搜狗等)正在做与之相关的研究,并且很多已经推出了基于内容的图像搜索平台,为用户提供图像搜索服务。而美国的麻省理工学院、加州大学伯克利分校、伊利诺伊大学和英国的牛津大学等相关研究工作开始得更早,也研发出了相应的基于图像内容的图像搜索系统。在以上所有相关研究中,它们都具有一个典型的研究特征:研究目的是为了解决视觉搜索的应用问题,而对应的视觉搜索模式大部分是基于知识计算。由于视觉搜索需要组织、分析和处理的对象主要包括文本、图像、视频等各类蕴含大量价值的视觉资源,因此,如何从视觉大数据资源中获取有价值的知识,就成为国外学术界和工业界一直以来的研究热点。以发掘视觉大数据资源中蕴含的丰富的、复杂关联的知识为目的的知识库称之为视觉对象知识库。目前,全球基于文本、图像、音视频等视觉资源的各类知识库有不少于60种,而基于这些视觉对象知识库的具体应用案例和系统平台也有几百种。其中,比较有代表性的应用案例有维基百科的DBpedia(2014版中包含8.7万部电影、12.3万张唱片、45万个物件等)、Google的知识图谱Knowledge Graph(包括地标、城市、人名、建筑、电影、艺术作品等5亿个搜索结果实体与350亿条关联知识条目)、Facebook的Graph Search(包含10亿名用户、2400亿张图像、10000亿次页面访问量等)等。借助视觉搜索的相关理论与技术,开展对海量、异构、多元的视觉大数据资源的研究,不仅可丰富信息检索的外延和内涵,而且可以有效地解决当前数字图书馆所面临的“大数据、小知识、小服务”的瓶颈,具有一定的应用价值和现实意义。2.3 基于语义分析的视觉内容关联组织模式从已有研究来看,视觉搜索的研究对象大部分集中在文本与图像上,其中图像搜索是学者们着力解决的重点方向。视觉搜索研究可分为3个阶段:一是20世纪70年代末期开始的基于文本/元数据的图像搜索。这一方式主要通过人工标注元数据对图像进行描述,来实现对图像的信息检索功能,缺点是元数据标注费时费力,描述标准与反馈内容不完整,且容易有太多主观色彩。二是20世纪90年代开始提出基于视觉内容的图像搜索方法。这一方式其本质是采用人工构造图像底层视觉特征的方式来进行图像相似性比较,进而实现图像搜索,缺点是对图像底层特征和高层语义之间存在的语义鸿沟问题没有得到较好解决。三是21世纪初期提出的基于深度学习的图像搜索方法。社交网络与用户生成内容成为网络数据的主要来源,利用用户标签对图像语义进行组织、表达和理解成为研究主流,深度学习方法由此融入到相关领域。与图像搜索相比,视频表达和分析则是视觉搜索领域相对较新的研究领域。视频由大量图像帧组成,且图像帧之间有较为紧密的时空与语义关联关系,这对视觉搜索技术要求更高。但由于深度学习在文本与图像搜索领域所取得的成功,学者们开始借助于深度学习框架,对视频进行组织、理解和描述,尤其是在视频特征提取这一关键环节采取了以下几种方法:一是视频静态关键帧特征描述。由于视频是由大量图像帧按时序与语义关联组成,故可采用深度学习方法对静态视频帧(即图像关键帧)进行特征学习。在具体应用中,一旦确定合理的静态关键帧提取和编码方式,也能形成较好的视频描述效果。二是动态视频时序特征描述。有学者曾提出密集轨迹方法对视频进行分析,取得了不错效果。三是前面两种方法的有机结合。牛津大学的Simonyan等提出采用时间和空间深度神经网络来对视频进行分析,时间轴输入的原始视频,用于对视频中的视觉对象进行识别,空间轴输入的时序关联场,用于对视频中视觉对象的动作及其轨迹进行识别。目前国内外也有大量针对视觉内容分析与表达方面的竞赛,比如2013年美国佛罗里达大学组织开展的THUMOS比赛,就对海量视觉数据集中异构无序的视觉资源进行分析和理解,该项赛事随后每年都会开展相关研究。国内外许多高校、科研机构都积极参与到该项赛事中,如清华大学、浙江大学、香港中文大学、卡耐基梅隆大学、悉尼科技大学等。美国国家标准与技术研究所2011年组织开展的TRECVID比赛,针对大规模视觉数据集中复杂视觉资源中事件监测问题展开研究。近几年来,该项赛事也一直在围绕着这个主题开展相关研究,国内许多高校,如复旦大学、浙江大学、北京理工大学与同济大学等,在这项赛事中也获得了一定成绩。目前虽然在视觉大数据资源的组织、分析、理解和利用方法上有很多研究成果,但这些成果最终目的是应用于视觉搜索。近年来一系列研究对于视觉搜索及其在各行业、领域的应用与推广工作起到了积极作用,这对于数字图书馆领域而言,是一个积极信号。3 大数据环境下视觉搜索研究的5个核心问题尽管视觉搜索已经获得了工业界和学术界(包括数字图书馆领域在内)的高度关注,但目前在国内并未得到广泛应用及推广,主要原因是由于相关技术与应用产品尚未完全成熟,存在着视觉搜索性能不够理想或不够稳定、用户体验质量不佳、应用局限性较强等问题,围绕这些问题,就需要从视觉搜索研究基础理论与技术角度来解决。从数字图书馆视觉搜索模式构建流程[1]来看,视觉搜索研究主要包括5个核心问题,分别描述如下。视觉大数据资源的获取与组织方法。互联网环境下视觉大数据资源的存在形式是动态无序和异构离散的,视觉资源的生产和发布是动态变化的。视觉资源所蕴含的信息内容都包含多个异构、复杂的信息主题,彼此之间存在语义时空关联关系。而传统基于人工标注的视觉资源标注方法往往不够精确,因此,如何快速获取到所需视觉资源,是视觉搜索应用的关键问题。而对与待搜索视觉对象无关的视觉资源的清洗过滤,以及视觉大数据资源的有效组织是视觉搜索应用的核心问题。视觉大数据资源的理解与表达方法。为了在海量视觉大数据资源中找到与待搜索对象一致的视觉资源,就需要从符合待搜索视觉资源的特征分析与理解出发,对其视觉内容进行多元化、结构化、多层次的深度理解和表达。视觉大数据资源整合与交互方法。视觉搜索作为一种信息检索模式,其服务对象是用户。对视觉大数据资源的获取与组织、理解与表达的目的是为了给用户提供智慧化、人性化的知识服务。因此,如何围绕视觉大数据资源整合全生命周期进行多维度分析,从而满足用户对视觉大数据资源的多元化知识服务需求,也是视觉搜索研究能否成为现实的核心问题。视觉对象知识库建设及标准化问题。视觉搜索依赖于视觉对象知识库的建设。基于高质量的视觉对象知识库,用户可快速将待搜索视觉对象与虚拟信息空间中的视觉大数据资源进行有效关联,从而享受到数字图书馆提供的视觉搜索知识服务。同时,标准化问题也是视觉搜索应用能否顺利应用和推广的关键所在。视觉搜索体系的安全与可靠性理论。无论在任何时候,网络安全及系统可靠性问题是永远无法回避的难题,视觉搜索亦不例外。在视觉搜索体系中,数据安全性与知识产权、用户隐私权、系统可用性与可靠性等问题亦是视觉搜索能否得到有效推广与应用的核心问题。4 总结与展望在“互联网+”时代,信息服务正越来越广泛地深入到用户智慧化、个性化和嵌入式的知识服务需求中去,数字图书馆领域开始呼唤新型的杀手级信息检索模式。视觉搜索是当前信息检索领域发展的一个重要前沿和创新突破口,在充分汲取国内外信息科学领域先进研究成果的基础上,开展数字图书馆视觉搜索基础理论与应用研究,不仅有望从理论上丰富数字图书馆知识服务研究思想与未来发展框架,也有利于揭示数字图书馆中视觉大数据资源价值的产生机理与转换规律。毫无疑问,人类正在向“‘互联网+’时代”迈进,作为一种技术与理念创新,视觉搜索必然符合一般信息技术生存、发展与成熟基本规律,需要经历技术诞生的萌芽期、飞速进步的发展期、迅速膨胀的高峰期、去泡沫化的低谷期、稳步发展的光明期和实际应用的高峰期6个阶段。目前来看,国内外已有视觉搜索研究正处于发展期,存在着理论与技术交叉之后学科间的不平衡这一问题。当前视觉搜索的理论、方法与技术研究主要集中在商业型视觉搜索应用上,对于产生视觉大数据资源的学术领域则关注较少。实际上,以科学研究、学科服务等学术领域为代表的视觉大数据资源,具有异于商业型应用的丰富内涵与独特特征,只有全面掌握商业应用与学术领域的相关研究,才有助于建立更加科学、系统、合理的视觉搜索理论体系和应用框架。
大数据论文【1】大数据管理会计信息化解析
摘要:
在大数据时代下,信息化不断发展,信息化手段已经在我国众多领域已经得到较为广泛的应用和发展,在此发展过程,我国的管理会计信息化的应用和发展也得到了非常多的关注。
同时也面临着一些问题。
本文通过分析管理会计信息化的优势和应用现状以及所面临的的问题,以供企业在实际工作中对这些问题的控制和改善进行参考和借鉴。
关键词:
大数据;管理会计信息化;优势;应用现状;问题
在这个高速发展的信息时代,管理会计的功能已经由提供合规的信息不断转向进行价值创造的资本管理职能了。
而管理会计的创新作为企业管理创新的重要引擎之一,在大数据的时代下,管理会计的功能是否能够有效的发挥,与大数据的信息化,高效性、低廉性以及灵活性等特点是密不可分的。
一、大数据时代下管理会计信息化的优势及应用现状
在大数据时代下,管理者要做到有效地事前预测、事后控制等管理工作,在海量类型复杂的数据中及时高效的寻找和挖掘出价值密度低但是商业价值高的信息。
而管理会计信息化就能够被看做是大数据信息系统与管理会计的一个相互结合,可以认为是通过一系列系统有效的现代方法,
不断挖掘出有价值的财务会计方面的信息和其他非财务会计方面的综合信息,随之对这些有价值的信息进行整理汇总、分类、计算、对比等有效的分析和处理,
以此能够做到满足企业各级管理者对各个环节的一切经济业务活动进行计划、决策、实施、控制和反馈等的需求。
需要掌控企业未来的规划与发展方向就能够通过预算管理信息化来实现;需要帮助管理者优化企业生产活动就能够通过成本管理信息化对
供产销一系列流程进行监控来实现;需要对客观环境的变化进行了解以此帮助管理者为企业制定战略性目标能够通过业绩评价信息化来实现。
(一)预算管理信息化
在这个高速发展的信息时代下,预算管理对于企业管理而言是必不可少的,同时对企业的影响仍在不断加强。
正是因为企业所处的环境是瞬息万变,与此同此,越来越多的企业选择多元化发展方式,选择跨行业经营的模式,经营范围的跨度不断增大。
这就需要企业有较强的市场反应能力和综合实力,对企业的预算管理提出了新的发展挑战要求。
虽然不同企业的经营目标各不相同,但对通过环境的有效分析和企业战略的充分把握,从而进行研究和预测市场的需求是如出一辙的。
企业对需求的考量进而反应到企业的开发研发、成本控制以及资金流安排等各个方面,最终形成预算报表的形式来体现企业对未来经营活动和成果的规划与预测,
从而完成对企业经营活动事后核算向对企业经营活动全过程监管控制的转变。
然而从2013国务院国资委研究中心和元年诺亚舟一起做的一项针对大型国有企业的调研结果中得出,仅仅有4成的企业完成了预算管理的信息化应用,
大型的国有企业在预算管理信息化应用这方面的普及率都不高,足以说明我国整体企业的应用情况也不容乐观。
所以从整体上来讲,预算管理信息化的应用并未在我国企业中获得广泛的普及。
(二)成本管理信息化
企业由传统成本管理企业向精益成本管理企业转换是企业发展壮大的必然选择。
而基于大数据信息系统能够为企业提供对计划、协调、监控管理以及反馈等过程中各类相关成本进行全面集成化管理。
而进行成本管理的重中之重就是对企业价值链进行分析以及对企业价值流进行管理。
企业能够通过成本管理信息化对有关生产经营过程中的原材料等进行有效地信息记录及进行标示,并结合在财务信息系统中产生的单独标签,
使与企业有关的供应商、生产经营过程和销售等的过程全都处于企业的监控。
以此企业可以做到掌握生产经营的全过程,即能够通过财务信息系统实时了解到原材料的消耗,产品的入库及出库等一切企业生产经营活动。
同时,结合价值链的分析和价值流管理,企业通过将生产过程进行有效地分解,形成多条相互连接的价值链,运用信息化手段对企业的
每条价值链的成本数进行有效的追踪监管和综合分析,以此为基础为企业提出改进方案,并使用历史成本进行预测,达到减少企业的不需要的损失及浪费,最终达到优化生产经营过程。
虽然成本管理信息化是企业发展的一个重要趋势,以大数据信息技术为基础的信息系统可以使得企业完成全面的成本管理,给企业的成本管理带来了巨大的推动力。
然而信息化在成本控制方面的实施效果并不是很理想。
(三)业绩评价信息化
业绩评价是对企业财务状况以及企业的经营成果的一种反馈信息,当企业的绩效处于良好状态,代表企业的发展状况良好,
也反映了企业现阶段人才储备充足,发展处于上升期,由此企业定制扩张战略计划。
而当企业的绩效不断减少,代表企业的发展状况在恶化,也反映了企业的人才处在流失状态,企业在不断衰退,此时企业应该制定收缩战略计划。
企业进行业绩评价信息化的建设,通过对信息系统中的各类相关数据进行综合分析,有效地将对员工的业绩评价与企业的财务信息、顾客反馈、学习培训等各方面联系在一起。
对于企业而言,具备一套完善且与企业自身相适应的业绩评级和激励体系是企业财务信息系统的一个重要标志,也是企业组织内部关系成熟的一种重要表现。
然而,如今对于具备专业的业绩评价信息化工具平衡分卡等在企业的发展过程中并未得到广泛的应用。
其中最大的原因应该是对业绩评价的先进办法对于数据信息的要求比较简单,通常可以由传统方式获得。
所以,现如今能够完全将业绩评价纳入企业信息系统,并能够利用业绩评价信息化来提高企业管理效率的企业数量并不多。
二、大数据时代下管理会计信息化存在的主要问题
(一)企业管理层对管理会计信息化不重视
我国企业管理层对企业管理会计信息化建设存在着不重视的问题。
首先,对管理会计信息化概念和建设意义没有正确的认识,有甚至由于对于企业自身的认识不够充分,会对管理会计信息化的趋势产生了质疑和抵触心理。
再者,只有在一些发展较好的企业中进行了管理会计信息化的建设工作及应用,但是,企业应用所产生的效果并不是很理想,进而促使管理会计信息化在企业的发展速度缓慢。
(二)管理会计信息化程度较低
大数据时代下,信息化手段已经在我国众多领域已经得到较为广泛的应用和发展,在此发展过程,我国的管理会计信息化的应用和发展也得到了非常多的关注。
但是,由于管理会计在我国受重视程度不够,企业在进行管理会计信息化建设的过程中对与软件的设计和应用也要求较高,所以与管理会计信息化建设相关的基础建设还相对较落后。
(三)管理会计信息化理论与企业经管机制不协调
虽然随着国家政策鼓励和扶持,很多行业的不断涌现出新的企业,企业数量不断增多,但是由于这些企业在规模以及效益等方面都存在着较大的差距,同时在管理决策方面也产生了显著地差别。
很多企业在发展的过程中并没有实现真正的权责统一,产生了管理层短视行为,没有充分考虑企业的长远利益等管理水平低下的问题。
三、管理会计信息化建设的措施
(一)适应企业管理会计信息化发展的外部环境
企业在进行管理会计信息化建设时,要结合企业所处的外部环境进行全方面的规划和建设。
在企业进行规划和建设时,国家的法律法规等相关政策占据着十分重要的位置,需要对市场经济发展的相关法律法规进行充分理解和考虑,为企业管理会计信息化建设提供好的法律环境。
管理会计信息化系统的正常运转要求企业处于相对较好的环境之中,以此充分发挥出其应有的作用。
(二)管造合适的管理会计信息化发展内部环境
企业管理会计信息化的良好发展要求企业能够提供良好的内部环境。
树立有效推进企业管理会计信息化建设的企业文化,企业文化作为企业股东、懂事、管理层以及每个员工的价值观念体现,
有利于各级员工都能够正确认识到管理会计信息化建设的重要性,接受管理会计信息化的价值取向。
再者,企业要储备足够的管理会计人才,为管理会计信息化的建设提供源源不断的血液。
同时,为企业管理会计信息化建设提供强大的资金保障。
最后,对企业内部控制体系不断完善,为企业创造长足的生命力,为管理会计信息化赖以生存的环境。
(三)开发统一的企业信息化管理平台
在大数据时代下,信息化不断发展,对于企业而言,会同时使用多种不同的信息系统进行组合使用,并且这种情况在未来也可能将持续下去,企业需要建立综合统一的企业信息化管理平台。
四、结束语
管理会计信息化已经成为企业发展的重要趋势。
同时也面对着一些问题。
因此,相应的措施和不断地完善和改进是必不可少的,以此才能够促进管理会计信息化的不断发展。
作者:李瑞君 单位:河南大学
参考文献:
[1]冯巧根.
管理会计的理论基础与研究范式[J].
会计之友,2014(32).
[2]张继德,刘向芸.
我国管理会计信息化发展存在的问题与对策[J].
会计之友,2014(21).
[3]韩向东.
管理会计信息化的应用现状和成功实践[J].
会计之友,2014(32).
大数据论文【2】大数据会计信息化风险及防范
摘要:
随着科学技术的不断进步和社会经济的不断发展,大数据时代的发展速度加快,同时也推动着会计信息化的发展进程,提高了企业会计信息化工作的效率和质量,资源平台的共享也大大降低了会计信息化的成本。
但大数据时代下会计信息化的发展也存在一定的风险。
本文将会对大数据时代下会计信息化中所存在的风险给予介绍,并制定相应的防范对策,从而使大数据时代在避免给会计
信息化造成不良影响的同时发挥其巨大优势来促进会计信息化的发展进程。
关键词:
大数据时代;会计信息化;风险;防范
前言
近年来经济全球化进程不断加快,经济与科技的迅猛发展,我国在经历了农业、工业和信息时代以后终于踏入了大数据时代。
大数据是指由大量类型繁多、结构复杂的数据信息所组成的`数据集合,运用云计算的数据处理模式对数据信息进行集成共享、
交叉重复使用而形成的智力能力资源和信息知识服务能力。
大数据时代下的会计信息化具有极速化、规模性、智能性、多元化、和即时高效等特点,这使得会计从业人员可以更方便快捷的使用数
据信息,并在降低经济成本的同时有效实现资源共享,信息化效率逐渐增强。
但同时大数据时代下的会计信息化也面临着风险,应及时有效地提出防范对策,以确保会计信息化的长久发展。
一、大数据时代对会计信息化发展的影响
(一)提供了会计信息化的资源共享平台
进入大数据时代以来,我国的科学技术愈加发达,会计信息化也在持续地走发展和创新之路,网络信息资源平台的建立使数据与信息资源可以共同分享,平台使用者之间可以相互借鉴学习。
而最为突出的成就便是会计电算化系统的出现,它改变了传统会计手工做账的方式,实现了记账、算账和报账的自动化模式,
提高了会计数据处理的正确性和规范性,为信息化管理打下基础,推进了会计技术的创新和进一步发展。
但是“信息孤岛”的出现证明了会计电算化并没有给会计信息化的发展带来实质性的变化。
我给你找了一篇,摘要如下:随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第三部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类...第四部分分析讨论了检索技术的另一分支—基于内容的检索技术第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索和多媒体信息检索两方面进行阐述。好不容易给转成 .txt文本,贴在下面:1.1网络信息资源网络信息资源是指“通过国际Intemet可以利用的各种信息资源”的总称。随着Intemet的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为一种新型的信息资源,发挥着越来越重要的作用,其内容几乎无所不包,涉及政治、经济、文化、科学、娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。1.2信息检索技术信息检索技术是现代信息社会中非常关键的技术之一。信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术,所以信息检索的全称又叫“信息存储与检索”。狭义的信息检索仅指从信息集合中找出所需信息的过程,也就是利用信息系统检索工具查找所需信息的过程。人们获取信息源的方式主要有:①遵循传统的检索方法在浩如烟海的图书馆资料中,通过人工查找索引找到对应的文献索引号再获取文献原文;②联机信息检索。这其中也存在一个发展过程,由检索结果来看,从提供目录、文摘等相关的二次信息检索到可以直接获得电子版的全文;由检索方法来看,从对特定关键词或者如作者、机构等辅助信息作为检索入口的常规检索到以原始文献中任意词检索的全文检索等等。其中,全文检索由于其包含信息的原始性、信息检索的彻底性、所用检索语言的自然性等特点在近年来发展比较迅速,成为深受人们关注的一种非常有效的信息检索技术,它是从大容量文档库中精确定位所需信息的最有效手段l3]。.3.2web信息检索其检索方式有:浏览器方式和搜索引擎方式。(l)浏览器方式(Br,singsystelns)。只要能够进入hitemct就能够通过浏览器,利用HTTP协议提供的WV乃万服务,浏览认触b页面和通过W匕b页面提供的检索方式访问数据库。(2)搜索引擎方式(SearehEngines)。搜索引擎是intemet提供公共信息检索服务的W七b站点,它是以一定的技术和策略在intemet中搜集和发现网络信息,并对网络信息进行理解、提取和处理,建立数据库,同时以认倪b形式提供一个检索界面,供用户输入检索关键词、词组或短语等检索项,代替用户在数据库中查找出与提问相匹配的记录,同时返回结果且按相关度排序输出,从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息,另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要,所以它是面向用户的,采用的方式是交互式的。网络信息检索工具采用主动提交或自动搜索两种方法搜索数据。1.4网络信息检索效果评价目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要。现代信息科学技术的发展,为人们提供了多种多样的信息获取和传送方法及技术,从“信源”与“用户”的关系来看,可分为两种模式:“信息推送”模式(InformationPush),由“信源”主动将信息推送给“用户”,如电台广播;“信息拉取”模式(InformationPull),由“用户”主动从“信源”中拉取信息,如查询数据库。2.2.1信息推送技术“推”模式网络信息服务,是基于网络环境下的一种新的服务形式,即信息服务者在网上利用“Push”技术为特定用户开展信息服务的方式。Push技术之所以成为Intemet上一项新兴的技术,是因为借助该技术使网络信息服务具有主动性,不仅可以直接把用户感兴趣的信息推送给用户,而且可有效地利用网络资源,提高网络吞吐率;再者,Push技术还允许用户与提供信息的服务器之间透明地进行通信,极大地方便了用户。所谓Push技术,又称“推送”技术、Web广播(Webeasting)技术,实质上是一种软件,这种软件可以根据用户定义的准则,自动搜集用户最可能发生兴趣的信息,然后在适当的时候,将其传递至用户指定的“地点”。因而从技术上看,“推”模式网络信息服务就是具有一定智能性的、可以自动提供信息服务的一组计算机软件,该软件不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,并经过筛选、分类、排序,然后按照每个用户的特定要求,主动推送给用户141。(l)信息推送方式。信息推送方式分两类,即网播方式和智能方式。网播方式有:频道式推送。频道式网播技术是目前普遍采用的一种模式,它将某些页面定义为浏览器中的频道,用户可像选择电视频道那样接受有兴趣的网播信息;邮件式推送,用电子邮件方式主动将所推送信息发布给各用户,如国际会议的通知、产品的广告等:网页式推送。在一个特定网页内将所推送信息发布给各用户,如某企业、某组织、某个人的网页;专用式推送。采用专门的信息发送和接收软件,信源将信息推送给专门用户,如机密的点对点通信。智能推送方式有:操作式推送(客户推送式),由客户数据操作启动信息推送。当某客户对数据进行操作时,把修改后的新数据存入数据库后,即启动信息推送过程,将新数据推送给其他客户;触发式推送(服务器推送式),由ll硕士学位论文MASTER,5THESIS⑧数据库中的触发器启动信息推送过程,将新数据推送给其他客户,当数据发生变化,如出现增加(Insert)、删除(Delete)、修改(update)操作时,触发器启动信息推送过程。(2)信息推送的特征。信息推送的特征有:主动性、针对性、智能性、高效性·灵活性和综合性I5]。主动性。Push技术的核心就是服务方不需要客户方的及时请求而主动地将数据传送到客户方。因而,主动性是“推”模式网络信息服务最基本特征之一。这也是它与基于浏览器的“拉”(Pull)模式的被动服务的鲜明对比。针对性(个性化)。针对性是说,Push技术可以针对用户的特定信息需求进行检索、加工和推送,并根据用户的特定信息需求为其提供个人定制的检索界面。智能性。Push服务器能够根据用户的要求自动搜集用户感兴趣的信息并定期推送给用户。甚至,Push技术中的“客户代理(ClientAgent)”可以定期自动对预定站点进行搜索,收集更新信息送回用户。同时个人信息服务代理和主题搜索代理还可为了提高“推送”的准确性,控制搜索的深度,过滤掉不必要的信息,将认飞b站点的资源列表及其更新状态配以客户代理完成。因而,网络环境下的“推”模式信息服务具有较高的智能性。这也是传统的定题服务(SDI)不能比的。高效性。高效性是网络环境下“推”模式信息服务的又一个重要特征。Push技术的应用可在网络空闲时启动,有效地利用网络带宽,比较适合传送大数据量的多媒体信息。灵活性。灵活性是指用户可以完全根据自己的方便和需要,灵活地设置连接时间,通过E一mail、对话框、音频、视频等方式获取网上特定信息资源。综合性。“推”模式网络信息服务的实现,不仅需要信息技术设备,而且还依赖于搜寻软件、分类标引软件等多种技术的综合[6]。但在当前信息技术的发展阶段,“推”技术还存在很大的缺陷,比如:不能确保信息发送,没有状态跟踪,缺乏群组管理功能等等。因此,国内外的研究者们又提出超级推(BeyondPush)技术的理论。所谓超级推技术是在保留、继承、完善了Push的优点(主动传递和个性化定制),摒弃了Push的诸多缺点之,2硕士学位论文MASTER,5THESIS管后而发展起来的一种新型的Push技术。它的最大特点是在于保证传送。即所有的信息都是在特定的时间送给特定的信息用户,同时保持连续性的用户资料,随时可以知道谁收到了信息,信息是否为该用户定制,用户环境是否适当等等[刀。2.2.2信息拉取技术常用的、典型的信息拉取技术,如数据库查询,是由用户主动查询数据库,从数据库中拉取所需信息。其主要优点是:针对性好,用户可针对自己的需求有目的地去查询、搜索所需的信息。Intemet上的信息拉取技术可以说是数据库查询技术的扩展和延伸。在网络上,用户面对的不止是一个数据库,而是拥有海量信息的hitemet环境,因此,各种网络信息拉取(查询)的辅助工具—搜索引擎应运而生了。信息推送与信息拉取两种模式各有其特点,在实际中常常是将两者的结合起来,常用的结合方式为:(1)“先推后拉”式。先及时地推送最新信息(更新的动态信息),再有针对性地拉取所需的信息。这样,便于用户注意信息变化的新情况和趋势,从而动态地选取需要深入了解的信息。(2)“先拉后推”式。用户先拉取所需信息,然后根据用户的兴趣,再有针对性地推送相关的其它信息。(3)“推中有拉”式。在信息推送过程中,允许用户随时中断、定格在所感兴趣的网页上,作进一步的搜索,主动拉取更丰富的信息。(4)“拉中有推”式。在用户拉取信息的搜索过程中,根据用户输入的关键词,信源主动推送相关信息和最新信息。这样既可以及时地、有针对性时为用户服务,又可以减轻网络的负担,并便于扩大用户范围[8]。因此,信息推送与信息拉取相结合是当前Intemet、数据库系统及其它信息系统为用户提供主动信息服务的一个发展方向。2.3Web挖掘技术随着功temet的发展,W己b已经成为人类社会的公共信息源。在hitemet给人类带来前所未有的信息机遇的同时,又使得人类的信息环境更加复杂,人硕士学位论文MASTER,5THESIS⑧类如何利用信息的问题非但没有如预想的通过信息技术的发展得到圆满的解决,相反,随着信息技术的发展,信息量的激增,造成了个人实际所需信息量与研触b上的海量信息之间的矛盾,因而也就造成了个人利用信息的困难。在这种情况下,虽然出现了叭范b环境下的专门检索工具,但是由于搜索引擎是由传统检索技术发展而来,在当前用户要求不断提高的情况下,传统的搜索技术己经不能够满足人们的需要。为了更加有效地利用网络信息资源,W七b挖掘作为新的知识挖掘的手段,为Web信息的利用提出了新的解决方案叨。2.3,1姗eb挖掘的内容数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。Web挖掘则是从WWW及其相关的资源和行为中抽取有用的模式和隐含信息。其中WWW及其相关资源是指存在于WWW之上的Web文档及Web服务器上的日志文件以及用户资料,从Web挖掘的概念中应当看出Web挖掘在本质上是一种知识发现的手段,它主要从下面3个方面进行仁时。(1)Web内容挖掘。W七b内容挖掘是从W匕b数据中抽取知识,以实现Web资源的自动检索,提高web数据的利用效率。随着Intemet的进一步延伸,Web数据越来越庞大,种类越来越繁多,数据的形式既有文本数据信息,也有图像、声音、视频等多媒体数据信息,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据及非结构化的自由文本数据信息。因而,对W己b内容信息挖掘主要从下面两个角度进行〔”]。一是从信息检索的角度,主要研究如何处理文本格式和超级链接文档,这些数据是非结构化或半结构化的。处理非结构化数据时,一般采用词集方法,用一组组词条来表示非结构化的文本,先用信息评价技术对文本进行预处理,然后采取相应的模型进行表示。另外,还可以用最大字序列长度、划分段落、概念分类、机器学习和自然语言统计等方法来表示文本。处理半结构化数据时,可以利用一些相关算法给超级链接分类,寻求认七b页面关系,抽取规则。同处理非结构化数据相比,由于半结构化数据增加了HTM毛标记信息及Web文档内部超链结构,使得表示半结构化数据的方法更加丰富。二是从数据库的角度,主要处理结构化的W匕b数据库,也就是超级链接14⑧蕊誉蕊文档,数据多采用带权图或者对象嵌入模型(OME),或者关系数据库表示,应用一定的算法,寻找出网站页面之间的内在联系,其主要目的是推导出Web站点结构或者把W匕b变成一个数据库,以便进行更好的信息管理和查询。数据库管理一般分成三个方面:一是模型化,研究认触b上的高级查询语言,使其不局限于关键字查询;二是信息的集成与抽取,把每个W七b站点及其包装程序看成是一个认范b数据源,通过W七b数据仓库(data~house)或虚拟W七b数据库实现多种数据来源的集成;三是叭几b站点的创建与重构,通过研究web上的查询语言来实现建立并维护web站点的途径[“]。(2)札b结构挖掘。W匕b结构挖掘,主要指的是通过对W七b文档的分析,从文档之间的组织结构获取有用的模式。W匕b内容挖掘研究的是文档内的关系,W七b结构挖掘关注的则是网站中的超级链接结构之间的关系,找到隐藏在一个个页面之后的链接结构模型,可以用这个模型对W七b页面重新分类,也可以用于寻找相似的网站。W七b结构挖掘处理的数据类型为W七b结构化的数据。结构化数据是描述网页内容组织方式的数据,页内结构可以用超文本标记语言等表示成树型结构,此外页间结构还可以用连接不同网页的超链结构表示。文档间的链接反映了文档信息间的某种联系,如隶属平行关系、引用与被引用关系等。对W七b页面的超级链接进行分类,可以判断与识别页面信息间的属性关系。由于Web页面内部存在或多或少的结构信息,通过研究W亡b页面内部结构,可寻找出与用户选定的页面集合信息相关的其它页面信息模式,以检测W己b站点所展示的信息完整程度。③Web行为挖掘。所谓W己b用户行为挖掘主要是通过对认尼b服务器的日志文件以及用户信息的分析,从而获得有关用户的有用模式。W七b行为挖掘的数据信息主要指网络日志中包括的用户行为模式,它包括检索时间、检索词、检索路径、检索结果以及对哪些检索结果进行了浏览。由于W七b自身的异质、分布、动态、无统一结构等特点,使得在认七b网上进行内容挖掘比较困难,它需要在人工智能和自然语言理解等方面有所突破。所幸的是基于W七b服务器的109日志存在着完整的结构,当信息用户访问web站点时,与访问相关的页面、时间、用户ro等信息,日志中都作了相应的记录,因而对其进行信息l5硕士学位论文MASTER,5THESIS⑥挖掘是可行的,也是有意义的。在技术实践过程中,一般先把日志中的数据映射成诸种关系信息,并对其进行预处理,包括清除与挖掘不相关的信息等。为了提高性能,目前对109日志数据信息挖掘采用的方法有路径分析、关联规则、模式发现、聚类分析等。为了提高精确度,行为挖掘也应用到站点结构信息和页面内容信息等方面。2.3.2web挖掘技术在网络信息检索中的应用(l)Web内容挖掘在检索中的应用。W匕b内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对W己b文档的处理不够深入,因此,可以利用叭触b内容挖掘技术来对网络信息检索中的W己b文档处理部分进行进一步的完善,具体而言表现在以下几个方面。①文本总结技术。文本总结技术是指从文档中抽取出关键信息,然后以简洁的形式对W匕b文档的信息进行摘要或表示。这样用户通过浏览这些关键信息,就可以对W七b网页的信息有大致的了解,决定其相关性并对其进行取舍。②文本分类技术。W匕b内容挖掘中的文本分类指的是按照预先定义的主题类别,利用计算机自动为文档集合中的每一个文档进行分类。分类在网络信息检索中的价值在于可以缩小检索范围,大大提高查准率。目前,己经出现了很多文本分类技术,如TFIFF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。③文本聚类技术。文本聚类与文本分类的过程J险洽相反,文本聚类指的是将文档集合中的文档分为更小的簇,要求同一簇内的文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。文本聚类技术不需要预先定义好的主题类别,从而使得搜索引擎的类目能够与所收集的信息相适应。文本聚类技术与人工分类相比,它的分类更加迅速、客观。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,并将相似的结果集中在一起。(2)Web结构挖掘在网络信息检索中的应用。W匕b的信息组织方式采用了一种非平面结构,一般来说W己b的信息组织方式是根据内容来进行组织的。但是由于W匕b的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信16硕士学位论文MASTER,S竹正515⑧息,而是将叭触b页面作为平面机构的文本进行处理。但是,在从触b结构挖掘中,通过对研触b文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果〔3]。(3)脆b行为挖掘在网络信息检索中的应用。认触b行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过研触b行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。2.3.3web挖掘技术的局限及方向(1)孔b内容挖掘。W七b上的数据不管是用HTML还是XML标记语言表示,都不能完全解决W七b数据的非结构性问题,特别是汉语句子格式繁多,虚词、实词没有绝对的界限,切分词难度大,这些是造成无法对数据进行完全自动标引的根本性问题,因此,从七b内容挖掘技术有必要结合数据仓库等信息技术进行信息存储,并最终实现智能化、自动化的数据表示和标引,以供搜索之用。通常数据的表示和数据的利用形式是相互关联的,因此,设计相应的具有高查全率和查准率的挖掘算法也和数据表示一样是未来的方向之一。另外多媒体数据如何进行识别分类标引,这也是未来的研几b内容挖掘研究的难点和方向。(2)梅b结构数据挖掘。随着Intemet的迅猛发展,网站的内容也越来越丰富,结构也越来越庞杂,用有向图表示巨型网站链接结构将不能满足数据处理的需要,需要设计新的数据结构来表示网站结构。由于用来作对比分析发现问题所在的用户使用信息只有日志流,那么,对用户使用日志流中每一链接关系如何识别、采用什么结构表示、如何抽取有用的模式等等,不仅是认飞b行为挖掘的重要研究内容也是网站结构挖掘的重要研究方向之一。(3),eb用户行为挖掘。由于Iniemet传输协议HTTP的无状态性,客户端、代理服务器端缓存的存在,使用户访问日志分别存在于服务器、代理服务器和客户端,因此,从W七b用户访问日志中研究用户访问规律最大的难点在于如何把分布于不同位置的访问日志经过预处理,形成一个个用户一次的访问期间。通常来讲,对于静态W七b网站,服务器端的日志容易取得,客户端和代l7理服务器用户访问日志不容易取得;其次,由于一个完整的W匕b是由一个个图片和框架页面组成的,而用户访问服务器也有并发性,在确定用户访问内容时,必须从服务器日志中甄选出某个用户实际请求的页面和页面的主要内容。另外,由于目前已经有的数据挖掘算法主要是在大量交易数据基础上发展起来的,在处理海量Web用户访问日志中也需要重新设计算法结构〔41。2.4信息过滤技术hitemet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为,第一,网络环境中信息的来源复杂多样,随意性大,任何人、任何单位不管其背景和动机如何都可以在网络上发布信息,信息的产生和传播没有经过筛选和审定,因此信息的可靠性、质量和价值成为用户普遍担心的一大问题;第二,目前大多数据搜索工具的检索范围是综合性的,它们的Robots尽可能地把各种网页抓回来,经过简单加工后存放在数据库中备检;第三,搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配,返回给用户的就是所有包括关键词的文献,这样的检索结果在数量上远远超出了用户的吸收和使用能力,让人感到束手无策。这就是人们经常谈论的“信息过载”、“信息超载”现象。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。2.4.1信息过滤模型信息过滤其实质仍是一种信息检索技术,因此它仍依托于某一信息检索模型,不同的检索模型有不同的过滤方法。51。(1)利用布尔逻辑模型进行过滤。布尔模型是一种简单的检索模型。在检索中,它以文献中是否包含关键词来作为取舍标准,因此,它不需要对网页数据进行深度的加工。最简单的关键词表可以设计成只有三个字段:关键词、包括关键词的文献号、关键词在相应文献中出现的次数。检索时,用户提交关键词。
高校文献信息检索的必要性与有效方法论文
在学习、工作中,大家总免不了要接触或使用论文吧,论文可以推广经验,交流认识。如何写一篇有思想、有文采的论文呢?以下是我收集整理的高校文献信息检索的必要性与有效方法论文,希望能够帮助到大家。
摘要: 随着互联网信息、知识的不断更新,文献信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段,成为继续学习的重要工具。通过探讨文献信息检索的科学定义及高校信息检索的必要性,进而从文献信息检索流程角度提出高校文献信息检索的途径和策略。
关键词: 文献;信息检索;策略;
文献信息是巨大的社会财富,它伴随着社会的广泛进步而迅速更新和积累,在带给我们越来越便捷的同时,也必然给阅读、查找和充分利用信息带来一定困难。为解决庞大的科学文献和个人特定需求之间的矛盾,便产生了文献信息检索,文献信息的检索和利用已经发展成为一门专门的学科,高校信息检索能力已经成为高校师生信息素养的重要内容,也是提高大学生学习能力和教师科研的重要手段。
一、文献信息检索定义
“信息检索(Information Retrieval)”一词最早出现在20世纪50年代,有广义和狭义之分。
广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程和技术。也就是说,信息检索包括两个环节和内容:“存”和“取”。狭义的信息检索则专指信息检索过程中的第二个环节,即从信息集合中找出所需要信息的过程,也就是我们常说的信息检索、信息查找或信息搜索等术语。
信息检索按照检索对象的不同又可以分为文献检索、数据检索、事实检索。本文侧重于文献检索,即通过检索文献来获取所需要的信息、知识、情报[1]。
二、高校文献信息检索的必要性
(一)信息的多元化需要师生具备一定的信息评价和筛选能力
在当今互联网、信息化社会,人们无时无刻不在利用信息资源进行生产、生活和创新创造。但面对浩瀚的信息海洋,信息流和信息量越来越多、越来越大,人们进行检索和利用的困难也就越来越大。随着4G网络的覆盖和智能手机的普及,人们轻而易举就能接触各种各样的信息,各类门户网站、微博、微信、QQ等推送信息的常态化,一方面丰富了我们的日常生活,拓宽了我们的视野;另一方面也给我们对于浩瀚无垠的信息的过滤、评价、筛选和运用带来极大的挑战[2]。在纷繁复杂的信息洪流中,哪些是对我们有益的,哪些会给我们带来负面的影响,都要求我们具备一定的信息鉴别和评价的能力,需要我们具备较高的信息素养和信息处理能力。文献信息检索能力成为高校师生应掌握的基本学习技能之一,是继续学习的重要手段,在教学、学习、科研和生活方面发挥巨大作用。
(二)学校对学生的信息素养教育重视程度不够
早在20世纪70年代,联合国教科文组织就对“文盲”下了新的定义:在当今科学技术飞速发展的时代,文盲已不是不识字的人,而是不知道如何获取知识的人。我国国家教委要求,全国各大院校要全面普及开设文献信息检索课,这对大学生普及文献检索知识、提高信息素养、增强信息检索的兴趣、提高信息检索能力都具有十分重要的现实意义[3]。然而现状却是,全国各大高校开设的信息检索课程大部分是以选修课的形式存在,学生自愿选择,主要目的也就是为了修够学分,以这样的方式开展信息教育并不能取得理想的效果,这种重专业、轻信息素养的教育还普遍客观存在。
(三)信息检索助力高校科学研究
科学研究是高等学校重要职能之一,大学对整个社会的科技进步与发展起着重要引领与推动作用。现代科学技术的迅猛发展,各个学科的交叉和渗透一方面促使了新的学科不断涌现,源源不断地出现大量新的知识;另一方面,知识的老化和被淘汰的速度也会越来越快。作为高校科研人员,必须具备一定的信息素养,即敏锐的信息意识、发现高质量信息的能力、信息的选择和评价的能力以及如何正确地引用文献、尊重他人知识产权的能力。作为科学研究者,必须时时了解学科最前沿的动态,掌握最新的知识,这样才能研究出有价值的科研成果,而文献信息检索能力就是科学研究人员必不可少的要素之一。为了减少课题的重复研究,提高研究的成功率,科研人员在研究一项课题之前,必须要进行的相关的资料收集和文献检索。在确定选题之后同样要科学合理运用文献信息检索方法开展文献信息甄别筛选和运用,进行进一步研究,保障研究成果的承续性,进而推动科学研究向纵深发展。
三、高校文献信息检索的策略
(一)分析检索问题
在解决一个问题之前,我们首先要做的就是分析问题,对问题的分析是解决问题的关键所在。分析一个问题我们可以从如下几个方面考虑:首先,提问者是谁。同样一个问题,教师跟学生对内容的层次要求就不同;一个专业性的问题,高校专业教师和学生对问题的要求也会不同。其次,问题的性质。不同的问题对应不同的要求,如果我们对一个概念需要界定,或者需要查找与自己所撰写文章密切相关的文献,这时对概念的界定和对文献的检索就需要“准”。如果我们要做一个论文的选题的确定或者做一个项目的申报、企业新产品的开发,在做这些工作之前,我们需要对前人的研究成果做一个全面的普查,这类型的问题的要求就是“全”。再如,我们要了解某个领域的趋势前沿和最新进展,对这类问题的要求就是查找的资料必须要有新颖性,即“新”。再有,对一些技术性强的问题,如专利的申报、企业新产品的开发、某一项技术的引进等,对这类问题的检索要求是“细”。再次,学科和主题。如果只是单一的某一个学科或主题,那么只需要找到收录这个学科资源的数据库进行检索就可以。但是有很多跨学科领域研究的问题如果只是在一个数据库查找,就会造成资源的不全面。第四,资源类型。我们熟知的资源类型有学位论文、会议论文、期刊论文、图书、专利、标准等等,不同的资源类型收录的特点也不同,如内容的深度、系统性、时效性都不同,研究课题不同,对资源类型的要求也不同。第五,资源的范围。查找资料的时候往往对范围进行限定,范围包括时间范围、地域范围、语种范围等。
(二)选择合适的检索工具
分析检索问题之后,我们需要选择合适的检索工具。常用的检索工具有搜索引擎和商业数据库。搜索引擎它具有检索过程不收费、面向所有的终端用户、对用户检索水平要求较低等特点,常用的搜索引擎有谷歌、百度、搜狗、必应等。商业性数据库的特点有:第一,检索需要收费或者授权,高等学校一般都与相关商业数据库合作,校园网环境下一些商业数据库是可以免费使用的。第二,它们的功能和收录资源的范围有明确的定位,如只能检索专利信息的德温特专利创新索引、只能检索学位论文的ProQuest Digital Dissertations数据库、只能检索会议论文的CPCI、只收录世界上顶尖期刊论文的Web Of Sicence的三大引文索引数据库等。第三,这些数据库都有自己的一套检索技术,因此对用户的检索水平要求较高。除了上述的专业性数据库之外,还有一些因经常使用被我们熟知的综合性数据库,如中国知网、维普、万方等。
除了搜索引擎和商业数据库之外,还有一些其他可以免费获取资源的途径,如主题指南(导航)、数字图书馆、政府的网站(数据库)、电子预印本、博客、微博、机构知识库等途径。因此,我们只有熟知各个不同的检索工具以及它们的特色才能检索到不同的文献类型。 高校师生要立足本职工作和学习需要选取适合的文献信息检索工具,助力科学研究、日常教学和学习生活。
(三)抽取恰当的关键词
选取科学适当的检索工具后,下一步工作就是确定检索关键词。
首先,要确定研究问题有哪些核心关键词(Core Keywords),抽取核心关键词可以依据汉语主题词表,如查询表述具体事物名称的名词术语、事物的状态或现象的名词术语、科学分类的名词术语、研究方法、技术方法的名词术语、工艺方法、加工技术的名词术语、化学元素、化合物、金属材料与合金的名词术语、国家名称、地名、组织机构名称以及文献类型、文献载体的名词术语等。其次,为了保证查全率和查准率,应当注意这些核心关键词有无其他的表述方式,如同义词、近义词、与之相关的词、有无缩写形式或者全称形式、有无相关的组织机构、英文的单数复数形式等,如果有,分别检索。第三,避免用太泛的关键词,应选用专指性很强的关键词。例如,我们要检索计算机软件有关的视频资料,如果我们只输入“计算机操作视频”这样类似的检索式,当然也可以找到一些检索结果,但缺乏针对性。我们不妨直接明确输出我们要学习的.软件的名称,如“Powerpoint 视频”,这样检索出的结果的相关性就要高很多。第四,学会利用专业术语。不同的学科,他们的专业术语表述不同,如信息检索、克隆人、电子图书等都属于专业术语,对这些专业术语进行检索的时候,尽可能加上双引号进行精确检索,可以提高检索结果的相关度和准确度。
(四)构造检索式
确定几组关键词后,下一步工作就是要构造检索式。即要用一定的运算符号将这些关键词连接起来,形成具有一定意义的表达式,也叫检索提问表达式。构造检索式具有一定的专业性,这就需要依托信息检索课和上机课来实现,重点指导学生如何正确构造检索式。构造检索式,可以从以下几个方面考虑:首先要明确检索词之间的逻辑关系,用布尔逻辑运算符AND、OR、NOT将它们连接起来;然后需要考虑检索词之间的位置是否需要进行限定,如果需要则根据不同的检索工具使用一定的检索手段对检索词的位置进行限定;对于一些专有名词,是否需要作精确检索,如果需要则给检索词加上双引号;为了使检索结果更加精准,我们还需要把检索限制在某一个范围当中,比如限制在某个字段,语种、出版年、摘要、题名等不同的字段作一个限定,还有其他的各种限定,如文献类型、机构的域名的类型等等。当然,不同的检索工具可能有自己特有的语法用法,我们应当学会灵活应用和变通不同的检索方法和技巧。
(五)筛选检索结果
通过选取关键词、构造检索式进行检索后,会得到众多检索结果,但在众多的检索结果当中,并不是每一条都是我们所需要的,所以我们要对检索结果作一些筛选。首先,依据结果的相关度,我们得到的检索结果是否与我们要检索内容的主题相关,是否与我们所需要的信息内容的层次、深浅度相匹配;其次,要看作者,即要看作者的权威性和影响力,这直接影响到我们检索到的文献信息的质量,对于一些没有显示作者的网站来说就缺乏一定的严谨性;再次,要看检索结果的时效性,往往最新的观点、新的理论、新的解决方案都来源于最新发表的文献信息。另外,要合理判断检索信息的公正性、准确性,避免使用错误的、缺乏科学论证的文献资料,等等。
(六)调整检索策略
经过前面的检索步骤得出的检索结果当中,如果还是没有理想的检索结果,就需要调整检索策略。首先,当检索结果太少的时候,则需要扩大检索范围。比如看检索词是否有近义词、同义词、上位词,将这些检索词用布尔逻辑语OR来连接,可以很好的扩大检索范围。再如,利用宽容的检索方法检索,像英文单词中经常会有一部分相同的部分,那些可变换的部分就可以用截词检索代替。还有英文名词的单复数形式,如果我们要找“女性”的相关资料,只输入“woman”检索就会漏检很多,还应该对它的复数形式“women”也进行检索。还比如英文的缩写形式,比如我们要找“慕课”相关的文献,如果我们只是输入“慕课”就可能会漏掉相关重要信息,我们还应该用它的缩写形式去检索,输入“MOOC”或者它的英文全称“Massive Open Online Courses”,这样分别去检索才不会遗漏掉重要文献资料。如果是因为我们的限制太多导致检索结果太少,那么可以考虑去掉一两个限制。因为每一个检索工具收录的范围和内容有一定的侧重点和有限性,所以我们也可以考虑更换不同的检索工具进行检索。其次,当检索结果太多的时候,我们也应该采取一定的措施缩小检索范围。例如用布尔逻辑运算符AND和NOT连接检索词,用AND多加几个检索词进行限定,或者用NOT排除一些限定;使用检索词的下位词进行检索;对一些专有名称,专业术语加上引号进行精确检索也可以缩小检索范围,从而实现更精确地检索;对检索词加上一定的限制,如对它的时间、机构、网站、文献格式等进行一个限制;除此之外,我们还可以利用检索工具本身所具备的二次检索功能来筛选检索结果,从而缩小检索结果。
(七)求助专业人士
如果通过上述途径仍然不能取得理想的文献信息资料,我们可以通过一些掌握现代技术的、具有丰富科学研究经验的专业人士来获取我们想要的文献信息。例如,有很多图书馆的网站主页上都会有在线咨询的功能,我们可以通过在线咨询的服务功能从图书馆员那里获取文献信息资料。很多图书馆都开通了馆际互借的功能,通过馆际互借,我们可以共享很多成员馆的文献信息资源,而这些庞大且宝贵的文献信息资源经常会被老师们和学生们忽略掉。再如,我们还可以求助一些在线的问题回答类的网站,像百度知道、知乎等,还有国外比较权威的网站像AIIExperts等,通过询问这些网站上的一些权威专家,也可以为我们的学习和研究提供宝贵的意见。
总之,互联网是一个非常开放的空间,如果善于应用,我们不仅可以贡献自己的经验和智慧来为他人服务,我们也可以共享他人的智慧来为我们自己的研究和学习服务。
四、结语
信息检索的最终目的是通过解决各种各样的问题,进而提高学习和科学研究能力。正如美国文献家赫伯特所言:“知识的一半,是知道到哪里去寻找它。明日的文盲,不是不能阅读的人,而是缺乏检索能力的人。”互联网时代文献信息检索能力比文献信息本身更重要。来自美国的非盈利性机构“今日信息科学网站”的一份报告“Information Literacy A Skill for Life”也在呼吁互联网时代新的技能,即媒体与信息素养。由此看来,信息素养的培养不光适用于高校信息素养教育,同时也具有世界性的重要意义。文献信息知识伴随着社会的发展而迅速更新和积累,高校应强化对信息检索的指导,提高信息检索能力,助力高校教学和科学研究。
五、参考文献
[1]陈振标.文献信息检索、分析与应用[M].北京:海洋出版社,2016:19.
[2]陆和建,姜丰伟.新信息环境下高校信息检索课教学方式的优化策略[J].大学图书馆学报,2015(2):96—99,112.
[3]万爱群,杨红.浅谈开设《信息检索与利用》课程的必要性[J].广西质量监督导报,2007(6):105—118.
信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言 近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1 (1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。 (2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。 (3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。 2.1 集群系统的设计 由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。 集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。 下面主要说明基于专业内容的XML信息集成系统的构造方法: XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。 目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。 图2 2.2 网格中间件的设计 图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。 内部主要功能模块说明如下: (1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。 (2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。 (3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。 (4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。 (5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。 其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。
论文写作中文献资料检索
在社会的各个领域,许多人都写过论文吧,借助论文可以达到探讨问题进行学术研究的目的。一篇什么样的论文才能称为优秀论文呢?下面是我收集整理的论文写作中文献资料检索,欢迎阅读与收藏。
自从有了文献便有了文献检索。当人们从中查找所需信息时,文献检索也就应运而生。只不过早期可检索的对象较少,因而检索是一个不自觉的过程。早期的文献检索主要是手工检索,人们通过“心想、手翻、眼看”的方式进行。随着社会的发展和文献量的增加,人们逐渐认识到文献检索的必要性与重要性,现代文献检索是以计算机网络技术和现代信息技术为基础,在文献检索的应用中逐渐发展起来。
一、文献检索概述
文献是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。也可以理解为古今一切社会史料的总称。现在通常理解为图书、期刊等各种出版物的总和。
文献是记录、积累、传播和继承知识的最有效手段,是人类社会活动中获取情报的最基本、最主要的来源,也是交流传播情报的最基本手段。根据载体把其分为印刷型、缩微型、机读型和声像型。根据不同出版形式及内容,可以分为:图书、连续性出版物、特种文献。
电子文献是以数字方式将图、文、声、像等信息储存在磁、光、电介质上,通过计算机、网络或相关设备使用的记录有知识内容或艺术内容的文献信息资源,包括电子书刊、数据库、电子公告等。
文献检索,就是从文献信息集合中找出所需要的文献的过程,相当于人们通常所说的资料查寻。
二、纸质文献的检索
纸质文献的检索一般分为两种:直接检索和间接检索。直接文献检索地目的是为了获取所需要的文献。因此,有时可以直接从报刊杂志中通过浏览的方法直接获得所需文献,称之为直接检索。它具有方便、快捷的特点,适于浏览新到的书刊资料,有时是一种获得最新情报的方法,但同时又受到各种限制而漏查很多相关文献。因此,它只能作为一种辅助性的检索方法。
间接文献检索是一个利用检索工具并从中查出特定文献的过程。这一过程就称为间接检索。它可以比较系统地、全面地获得相关课题的文献信息。我们需要掌握的就是这种利用检索工具的间接检索的方法。这也是文献检索的主要方式。它大体上可以分为以下五个步骤:
(一)分析研究课题,明确检索要求:弄清楚课题的性质及学科专业范围是什么,所需的文献类型,要求的文种、年代的限定、课题的关键词等等是检索的第一步。
(二)选择检索工具:根据检索课题的要求,选择最能满足检索要求的检索工具或数据库。首先必须对各种检索工具所覆盖的学科范围有清楚的了解,然后从文献的类型、文种、出版的时间等方面来考虑选用哪种检索工具最合适。
(三)确定检索策略:选用具体的检索工具后,就要考虑选择和确定检索方法,确定具体的检索点,是从分类途径还是从主题途径检索,所查找的文献要达到什么要求,选用什么检索词等,以便具体进行检索。
(四)使用检索工具:确定了具体的检索方法后,就要利用所用的检索工具,在一定的年代和文献范围内具体查找,以获得文献信息。手工检索时可以一边检索一边分析取舍,获得符合需要的文献。(五)获取原文:检索文献最终要获取原文,如果在馆藏文献中查不到,则可通过各类联合目录获得其他单位收藏的信息,再通过馆际互借等途径或方式获取原文。这样就完成了文献检索的全过程。
文献检索方法主要有三种:
(一)追溯法(亦称滚雪球法):利用著者发表的文献后所列的参考文献为线索,由近及远,进行逐一追踪的查找办法,追查原文,再从这些原文后所附的参考文献逐一检索,象滚雪球似的获得一批批相关文献的方法。它是科研人员常喜欢用的一种简便的获得文献的途径。
(二)常用法:常用法也称工具法,就是直接利用各种文献检索工具查找文献的方法。由于检索工具的种类繁多,一般应根据课题内容特点,首先利用综合性的检索工具,然后再使用专业性的检索工具,二者结合,才不致造成文献资料的漏检。常用法根据时间范围又分为顺查法、倒查法和抽查法。
(三)循环法:循环法也称分段法、交替法或综合法,这是追溯法和常用法的结合。是将追溯法和常用法结合起来交替使用,充分发挥二者的优势分期、分段地交替使用,直到获得满意的相关文献为止。实际课题的检索选用何种方法,要根据具体情况而定:一是根据课题研究的需要;二是视所能利用的检索工具和检索手段。在检索工具比较丰富的条件下,可以利用常用法;在获得针对性很强文献的条件下可利用追溯法获得相关性较强的文献;获悉研究课题出版文献较多的年代可利用抽查法。
三、电子文献的检索
随着计算机、数据库和互联网络技术的普及,电子化图书馆、文献资料网络化服务等正成为我们获取文献资料的必不可少的手段,是我们学习、工作和科研的有力助手。利用好电子文献和检索工具,掌握好网络信息的搜索方法和策略对于获取信息是必要的。
传统的图书检索手段和方法对电子信息的检索作用有限。现代文献信息均能以数字化的形式获得,如电子图书、电子期刊、学位论文、会议论文、专利文献、标准文献、声像资料、多媒体资料等。电子文献的检索途径主要有以下几种:
(一)网络目录和搜索引擎
各种各样的Internet网络文献检索工具不计其数,根据提供检索与否,有网络目录和搜索引擎之分。
网络目录是按主题的等级排列的主题类目索引,类别目录按一定的主题分类体系组织,排列方法有字母顺序法、时序法、地序法、主题法等或是各种方法综合使用。用户通过逐层浏览类别目录、逐步细化的方式来寻找合适的类别直至具体资源。
搜索引擎则强调的是它的检索功能,能提供布尔逻辑检索、短语或邻近检索、模糊检索、自然语言检索等方式查询信息。各种资源进行标引,并为检索者提供检索的工具。基于搜索引擎的检索方法接近于通常所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获取检索结果,并输出给用户。
(二)联机馆藏目录
网络上有许多机构提供的馆藏书目信息、中外文期刊联合目录信息。其中包括各图书馆和信息机构提供(下转第137页)
(上接第36页)的公共联机检索(OPAC)馆藏书目、地区或行业的图书馆的联合目录等。
中国国家图书馆在网上提供图书目录在线检索,有题名、责任者、出版者、关键词、标准书刊号、分类号、出版地、出版国等10个检索途径。全国高等教育文献保障体系(CALIS)提供61所高校的馆藏期刊、书目和学位论文联合查询。
(三)网络数据库
网络数据库包括综合性和专业性期刊数据库、专利数据库等信息资源。这类信息资源可分为商业性和非商业性的数据库。这些数据库由专门的信息机构或公司专业制作和维护,信息质量高,是专业领域内常用数据库。
非商业性数据库因为免费使用,用户以较低的成本可获得所需的信息,所以也有很高的吸引力。如:IBM公司的免费专利文献数据库,提供美国专利的免费检索,用户可检索到1971 年以来的美国专利说明书的内容,包括专利书目信息和专利项,浏览1974年以来的专利文献。
(四)电子出版物
由于网上信息传播速度快,越来越多的出版商注重网上报刊发行。目前国内外已有很多出版高和信息服务中介商介入电子出版行业。电子出版物有电子图书、电子期刊和电子报纸。
(五)参考工具书
网络中许多参考资料是可以免费使用的,如新格罗夫音乐与音乐家大词典、英国大不列颠百科全书、汉语词典、学校或企业名录、中国国家统计局统计资料等大型工具书已加入因特网。
文献检索和使用的工作贯穿了论文写作的全过程:我们往往是先确定写作的大致内容;其次根据这个大致内容确定文献搜集的范围;然后阅读了主要的文献后再确定研究写作的具体内容;最后根据具体内容全面检索原始文献, 搜得的文献又充实了论文写作的基础。
一、文献检索的意义
文献检索在毕业论文撰写中的重要作用文献检索就是从大量的文献中迅速、准确地查出与特定的科学研究课题有关的资料。文献检索在大学生毕业论文撰写中有着不可替代的重要作用。
1.文献检索便于继承和借鉴前人的科研成果,避免重复研究
积累、继承和借鉴前人的研究成果是科学发展的重要前提,没有继承和借鉴就不可能有创新。毕业论文选题同科研选题、立项一样,必须通过文献信息检索或查新技术掌握国内外同类研究的动态进展,从中吸收有益的启示或参考数据,掌握大量相关信息,或得到更多、更有价值的论证依据。正如英国物理学家牛顿所说的是“站在巨人的肩膀上”,是指科研要熟悉别人的劳动成果,从前人研究的`“终点”中,找出自己研究的“起点”,从前人所用的研究方法、手段中受到启发,拓宽思路,分析研究所占有的资料,提炼出正确鲜明的观点。
2.文献检索有利于节省大学生查找文献时间,提高毕业论文质量
信息时代文献资料的迅猛增长,使得文献资料的`检索困难重重。如能灵活运用文献检索的技能,缩减检索时间,即能延长论文的写作时间。同时,文献信息检索利用可为毕业论文的观点提供理论依据和支持。大学生通过对文献信息检索分析比较后,才能从论题的创新性、内容的科学性等方面进行质量评价,进而提高论文质量。
3.文献检索启发学生的创造性思维与研究能力
图书馆文献是过去知识经验的总结,也是未来知识发展的向导。在文献检索过程中与论题有关联的文献信息很容易激发、调动大学生的潜在知识和智能,并从中获得灵感。不同的观点和方法,可促进大学生以发散性思维思考分析问题,拓展认识的深度和广度,进而全面获取有关学科的文献信息,及时了解学科领域中出现的新问题、新理论和新观点。图书馆文献信息检索利用的过程就是提高大学生研究能力的过程
二、文献检索的途径与方法
1.分析研究课题,确定检索要求
在进行具体的文献检索前,首先要分析课题,抓住课题的本质和要求,掌握代表课题内容的主题概念及其相关事物。依据本课题主题词来选定相应的检索工具,并从中选定检索标志,确定检索途径。在这方面自然科学、工程技术、人文和社会科学等具有不同的检索内容和要求。
2.选择检索工具
目前全世界有 2000 余种手工检索工具(书本型检索工具),还有联机检索、光盘数据库检索、Internet 网络检索等计算机检索工具。选择检索工具可利用“检索工具书指南”以及各种检索教材来了解检索工具书的收录情况。结合本课题,针对图书馆文献资料收藏情况,确定采用手工检索与机检相结合的方法。常用的检测工具包括以下几种:
书本检测工具:全国报刊索引、复印报刊资料、报刊资料索引、中国社会科学文献题录、国外社会科学论文索引等。
光盘数据库:全国报刊索引数据库、中国学术期刊(光盘版)、中国科学引文数据库、中国科技期刊篇名数据库、中国科技期刊篇名数据库等。
网络资源:中国知网、中国期刊网、、院校图书馆等。
3.文献检索的途径与方法
文献检索方法可分为常用法、追溯法和分段法三种。常用法是利用检索工具查找文献的方法,有三种类型,一是顺查,是以检索课题起始年代为起点,按时间顺序由远及近的查找文献的方法。二是倒查,是逆时间顺序由近及远的查找文献的方法。三是抽查,是针对学科发展的特点,抽出该学科发展迅速,发表文献比较集中的一段年代,抽查某几年的书籍和期刊、数据库。追溯法是利用已有文献后面所附的参考文献进行追溯查找的方法。一般参考文献中的原文结尾都附有新的参考文献目录,可视需要一直追溯下去,从而获得足够的文献资料。利用这些资料特别要注意综述性的文献资料,因为这些资料已对某一问题进行了一定的归纳整理,这样可以节约查找、阅读原始文献的时间。追溯法比较适合初写论文的大学生选用。分段法是将常用法与追溯法交替使用,既利用工具书检索,又利用文献后所附参考文献进行追溯。
另外,要检索重点资料,掌握核心期刊。核心期刊是期刊中学术水平较高的刊物,是我国学术评价体系的一个重要组成部分。它主要体现在对科研工作者学术水平的衡量方面,如在相当一批教学科研单位申请高级职称、取得博士论文答辩资格、申报科研项目、科研机构或高等院校学术水平评估等,都需要在核心期刊上发表一篇或若干篇论文。某学科(或某领域)的核心期刊,是指那些发表该学科(或该领域)论文较多、使用率(含被引率、摘转率和流通率)较高、学术影响较大的期刊。目前国内有 7 大核心期刊(或来源期刊)遴选体系:
(1)“北大核心”:北京大学图书馆“中文核心期刊”,即北京大学图书馆与北京高校图书馆期刊工作研究会联合编辑出版的《中文核心期刊要目总览》,每四年修订一次,目前是 2012 版;
(2)“南大核心”:南京大学“中文社会科学引文索引(CSSCI)来源期刊”;
(3)中国科学技术信息研究所“中国科技论文统计源期刊”(又称“中国科技核心期刊”);
(4)中国社会科学院文献信息中心“中国人文社会科学核心期刊”;
(5)中国科学院文献情报中心“中国科学引文数据库(CSCD)来源期刊”;
(6)中国人文社会科学学报学会“中国人文社科学报核心期刊;
(7)万方数据股份有限公司的“中国核心期刊遴选数据库”。
1A2B3D4C5A6D多选题1ABCD2BD3ACD4AB第六个不确定,你自己再查查吧
正确答案:
信息检索报告―――毕业论文《新型防水涂料的研究》文献检索报告课题分析防水涂料根据其用途可以分成很多种类,我本人毕业论文主要是研究其中应用最为广泛的建筑防水涂料.建筑防水涂料以合成高分子材料,沥青,聚合物改性沥青,无机材料等为主体掺入适量的助剂,改性材料,填充材料等加工制成.与防水卷材相比,防水涂料施工简单方便,适用于任何形状的基面,并可形成致密无缝的涂膜,因此,防水涂料已广泛应用于各种防水工程中,并取得了迅速的发展.对本课题研究主要分三个阶段.1.1研究新型防水,需要做的前期准备工作:(1)了解目前防水涂料在国内外的研究状况,发展前景.(2)了解我国建筑防水涂料的应用状况,与国外相比存在缺点.(3)目前国内外在防水涂料上所做出的进一步相关研究.(4)新型防水涂料的研究状况以及应用状况.(5)防水涂料应用仍需要解决的问题.1.2新型防水涂料研究制备(1)目前已有制备配方研究(2)实验室产品制备(3)产品性能检测(4)成本,大批量生产可行性,产品环保以及应用推广度进行综合核算评价.1.3目前面临问题(1)实验室条件限制(2)各种原料的购买(3)性能检测的费用2.背景资料2.1建筑防水涂料的概念建筑防水材料是建筑材料的一个重要组成部分,属于功能性材料,建筑物和构筑物之所以要采用防水材料其主要目的是为了防潮,防渗,防漏.建筑防水涂料,(简称防水涂料)是一种建筑防水材料.将涂料单独或与胎体增强材料复合,分层涂刷或喷涂在需要进行防水处理的基层表面,即可在常温条件下形成一个连续无缝整体且具有一定厚度的涂膜防水层,从而能满足工业与民用建筑的屋面,地下室,卫生间和外墙等部位防水抗渗要求.防水涂料一般是由沥青,合成高分子聚合物,合成高分子聚合物与沥青,合成高分子与水泥或以无机复合材料等为主要成膜物质,掺入适量的颜料,助剂,溶剂等加工制成的溶剂型,水乳型或反应型的,在常温下无固定形状的黏稠状液态或可液化的固体粉末状态的含高分子合成材料的复合材料,其发展概况见检索结果(1).2.3目前防水涂料在研究和应用上仍待解决的问题(1)防水涂料大多数是溶剂型,对环境污染较大,而水乳型聚合物改性防水涂料的质量还不够稳定.(2)一些聚合物防水涂料在力学性能,防水性能和耐久性等方面尚不是十分理想.(3)部分厂家为了降低成本,偷工减料,以次充好,致使大量不合格的产品流入市场.3.解决的问题(1)检索建筑防水涂料制备的背景知识以及相关基础知识.(2)检索到国内建筑防水涂料研究状况检索建筑防水涂料制备的背景知识.(3)检索到建筑防水涂料目前的应用状况.(4)了解到目前建筑防水涂料迫切需要解决的问题.(5)了解到各种防水涂料的生产配方以及生产工艺.4.检索过程与方法4.1检索过程中甬道的数据库以及搜索引擎(1)检索过程甬道中外文献数据库有:中国期刊网(CNKI),维普中文期刊全文数据库,万方数据库,中国专利数据库,EBSCO数据库,CSA数据库.(2)检索过程中使用的搜索引擎:Google, Baidu.4. 2检索途径关键词:防水涂料Google搜索引擎:搜索词汇有:① 防水涂料②在结果中搜索:建筑防水涂料研究发展③建筑防水涂料 制备cnki数据库检索:①数据库:中国期刊全文数据库②搜索关键词:建筑防水涂料③文献分类:建筑 化工④跨库检索:题名:建筑防水涂料 匹配:模糊 从1960到2006 目录:建筑 化工万方数据库检索①搜索关键词:建筑防水涂料③文献分类:建筑 化工维普中文期刊全文数据库检索关键词:建筑防水涂料主题:研究 制备5.检索结果(1)【主题】我建筑防水涂料的现状与发展【作者】余剑英; 董连宝; 孔宪明;【作者单位】武汉理工大学; 济南钢铁集团总公司原料处; 石油大学(华东); 湖北武汉; 山东济南; 山东东营;【刊名】新型建筑材料, New Building Materials, 编辑部邮箱 2004年 10期期刊荣誉:中文核心期刊要目总览 ASPT来源刊 中国期刊方阵 CJFD收录刊【关键词】建筑防水涂料; 现状; 发展;【摘要】介绍我国建筑防水涂料的现状及存在问题,提出我国建筑防水涂料的发展应由溶剂型向水乳型,由薄质型向厚质型,由深色向浅色,由低档向高弹性,高耐久性,功能性方向发展.大力研究开发和推广高性能,高耐候,环保型防水涂料和多功能防水涂料,研究开发防水涂料系列产品,重点发展环保型聚氨酯,丙烯酸,橡胶改性沥青和水泥基渗透结晶型防水涂料,提高中,高档防水涂料比例,加快施工机具的研制与推广.【DOI】 cnki:ISSN:1001-702X.0.2004-10-012(2)【主题】浅议我国的建筑防水涂料【作者】 广厦; 【刊名】 建材工业信息, , 编辑部邮箱 2003年 08期期刊荣誉:ASPT来源刊 CJFD收录刊【DOI】 cnki:ISSN:1002-9885.0.2003-08-003(3)【主题】建筑防水涂料【作者】 叶林标;【刊名】 建筑工人, Builders' Monthly, 编辑部邮箱 2006年 03期期刊荣誉:ASPT来源刊 中国期刊方阵 CJFD收录刊【DOI】 cnki:ISSN:1002-3232.0.2006-03-0(4)【主题】环保型建筑防水涂料【作者】 李长仁; 【报纸中文名】 科技信息快报, 2000-06-23【版号】 002【栏目】 技术市场【DOI】 CNKI:PCN:42-0083.0.2000-06-230021(5)【主题】 硅橡胶建筑防水涂料【作者】 谭玉春; 【刊名】 砖瓦世界, Brick & Tile World, 编辑部邮箱 1993年 11期期刊荣誉:ASPT来源刊 CJFD收录刊【摘要】桂橡胶建筑防水涂料的主要用途为屋面,地下室,卫生间及各种储水构筑的防渗,存水,隔热等.它的特点是无毒,无味,抗龟裂,抗老桂橡胶建筑防水涂料的主要用途为屋面,地下室,卫生间及各种储水构筑的防渗,存水,隔热等.它的特点是无毒,无味,抗龟裂,抗老化,耐高温,耐低温,耐碱和无腐蚀性,1992年末通过鉴定.硅橡胶建筑防水涂料系湖北金龙防水材料有限公司从中国科学院化学研究所引进的最新成果,在湖北独家生产.经武汉大学物理系实验室主体建筑的防水工程等施工表明,该防水涂料性能优越.经湖北省建材产品质量监督检验中心站测试,其性能指标如下:【DOI】 cnki:ISSN:1002-9885.0.1993-11-032(6)【主题】建筑防水涂料的现状及发展趋势【作者】蓝仁华; 陈立军; 陈焕钦; 【作者单位】 华南理工大学;【刊名】国外建材科技, Science and Technology of Overseas Building Materials, 编辑部邮箱 2004年 04期 期刊荣誉:ASPT来源刊 CJFD收录刊【关键词】 防水涂料; 现状; 发展趋势; 【摘要】 防水涂料是一种建筑防水材料 ,广泛应用于屋面,地下室,厕浴间和外墙等的防水.介绍了防水涂料的概念及分类,防水机理以及国内外的研究现状 ,并对未来的防水涂料的发展进行了展望【DOI】 cnki:ISSN:1006-4575.0.2004-04-001(7)【主题】美国防水涂料的发展现状与特点【作者】叶林标; 曹乃明; 【作者单位】 北京市建筑工程研究院; 100039;【刊名】建筑技术开发, Building Technique Development, 编辑部邮箱 2001年 12期期刊荣誉:ASPT来源刊 CJFD收录刊【DOI】cnki:ISSN:1001-523X.0.2001-12-021(8)【主题】健康型聚氨酯防水涂料研制【作者】 戴永清; 李亚军; 【作者单位】 北京市顺义鹏程防水材料厂; 【刊名】 化学建材, Chemical Materials For Construction, 编辑部邮箱 2002年 05期期刊荣誉:ASPT来源刊 CJFD收录刊【关键词】 聚氨酯; 健康型; 减量; 节能; 高性能; 防水涂料;【摘要】 对聚氨酯防水涂料的原材料选择,配方设计,生产工艺等方面进行了研究 ,以期实现聚氨酯防水涂料达到健康型,减量,节能,多功能,高性能之目的.【DOI】 cnki:ISSN:1004-1672.0.2002-05-014(9)【主题】国外建筑防水涂料的发展【作者】赵军;【刊名】砖瓦世界, Brick & Tile World, 编辑部邮箱 1987年 22期期刊荣誉:ASPT来源刊 CJFD收录刊【摘要】 在世界各国防水材料市场90%左右为沥青卷材和高分子片材的情况下,防水涂料仍以其多变的色泽,灵巧的施工,以及在特殊形状屋面,外墙及地下建筑的防水,防渗,防潮等方【DOI】 cnki:ISSN:1002-9885.0.1987-22-019(10)【主题】【英文篇名】Application and Development of Waterproof Coatings for Architectures in China【作者】 徐峰;【英文作者】 XU Feng;【作者单位】 安徽省建筑科学研究设计院;【刊名】 现代涂料与涂装, Modern Paint & Finishing, 编辑部邮箱 2006年 07期期刊荣誉:ASPT来源刊 CJFD收录刊【关键词】 防水涂料; 环保涂料; 施工机具;【英文关键词】 waterproof coatings; environmentally friendly coatings; application machines;【摘要】 简要介绍了我国防水涂料的主要种类和应用发展情况.我国防水涂料的发展将主要集中在高性能防水涂料的发展与应用,环保型防水涂料的开发,多功能防水涂料以及新型施工机具等方面.【英文摘要】 Main catergories,applications and development of waterproof coatings for architectures in China are introduced briefly.The development thereof will mainly focus on the reseach and application of high-performance,environmentally friendly,multi-functional waterproof paints and the new type application machines.【DOI】 cnki:ISSN:1007-9548.0.2006-07-014(11)【主题】一种较好的新型建筑防水涂料【作者】肖新莲;【作者单位】四川攀枝花市十九冶建研所;【刊名】中国建筑防水, China Building Waterproofing, 编辑部邮箱 1990年 02期期刊荣誉:ASPT来源刊 CJFD收录刊【摘要】 氯丁胶乳沥青防水涂料是以氯丁橡胶和沥青为基料,经加工而成的一种水乳型建筑防水涂料.特点它兼有橡胶和沥青的双重优点,具有成膜快,强度高,耐候性好,难延燃,基本无毒,无味,不污染环境,冷作业施工,操作方【DOI】 cnki:ISSN:1007-497X.0.1990-02-0(12)【主题】建筑防水涂料试验方法—标准操作探讨【作者】朱志远;【作者单位】 国家建材局建筑防水材料产品质量监督检验中心;【刊名】 中国建筑防水, CHINA BUILDING WATERPROOFING, 编辑部邮箱 1998年 02期期刊荣誉:ASPT来源刊 CJFD收录刊【摘要】『建筑防水涂料试验方法』标准操作探讨朱志远1前言GB/T16777-1997《建筑防水涂料试验方法》为各种防水涂料产品提供了一个统一的尺码来衡量产品性能,规定了一致的试验方法作为产品检测的依据,有利于防水涂料产品质量的提高及推广应用.方法标准主要参考...【DOI】 cnki:ISSN:1007-497X.0.1998-02-017(13)【主题】新兴防水涂料在民用建筑中的应用【作者】 熊君放;【作者单位】 湖南省建筑工程集团总公司;【刊名】中外建筑, Chinese and Overseas Architecture, 编辑部邮箱 2004年 03期期刊荣誉:ASPT来源刊 CJFD收录刊【关键词】防水涂料的特性; 施工工法;【摘要】随着建筑事业的迅猛发展,新型建筑防水涂料在基础设施建设,住宅建筑,城市建设,市政建设等领域得到了广泛的应用,并取得了显著成效.本文结合工程实践,介绍几种新型建筑防水涂料的特性,施工工法及施工中存在的问题及对策.【DOI】 cnki:ISSN:1008-0422.0.2004-03-073(14)【主题】建筑防水材料的现状及新型防水卷材和涂料的应用【英文篇名】The present situation of waterproof materials andapplication of new-type waterproofingroll-roofing and waterproofing paint【作者】 石磊; 李青;【英文作者】 Shi Lei Li Qing;【作者单位】 茂名石比检修公司设计室;【刊名】 茂名学院学报, Journal of Guandong College Petrochemical Technology, 编辑部邮箱 1996年 01期期刊荣誉:ASPT来源刊 CJFD收录刊【关键词】防水层; 防水材料; 防水卷材; 防水涂料;【英文关键词】 waterproof layer; waterproof materials; waterproofing roll-roofing; waterproofing paint;【摘要】该文介绍了新型防水卷材,防水涂料的特点和应用.【英文摘要】This paper introduces characters and application of new-type waterproofing roll-roofing, waterproofing paint.【DOI】 cnki:SCN:44-1451.0.19【作者】 广厦;【刊名】建材工业信息, , 编辑部邮箱 2003年 08期期刊荣誉:ASPT来源刊 CJFD收录刊 96-01-011(15)【主题】防水涂料【刊名】 涂料技术与文摘, , 编辑部邮箱 1995年 03期期刊荣誉:ASPT来源刊 CJFD收录刊【DOI】 cnki:ISSN:1672-2418.0.1995-03-0226.小结虽然我我们是化学系,但与化工中的防水涂料还是相隔很远.选择这个题目来自于自己的一个生活体会.实习时正好学校刷油漆,同学对那种油漆味真是达到难以忍受的地步,油漆是钢材防水涂料.当时我就想能不能有一种环保型涂料来代替,没有这种难以忍受的味道,后来选题时候我看到了这个题目就毫不犹豫的选择了.与导师接触以后才知道这个题目不是很简单,要有很好的专业知识和研究精神.可对这个题目我可以说一无所知,就是其中最简单的成分也不清楚.学习了化学检索这门课程,对各大数据库的相互检索,我了解了建筑防水涂料的相关知识,制备方法和配方,一些相关涂料生产地,也知道了目前国外国内在这个方面做出一些相关研究,激起了我对这个题目兴趣,虽然自己还是外行,但我相信兴趣是成功的第一步,以后我会更好的利用信息检索这个工具,圆满的完成这个课题.但有些地方我还感到不足,和很多同学一样,那就是外文检索,对于这个专业的一些英文词语很陌生,这也是自己需要改进的地方,多熟悉相关的英文词语,中英文互通.7.建议学习文献检索课我受益非浅,对学校的数据资源库也不再是任其浪费,知道了怎么样去找自己需要的一些专业性的文献,对做毕业论文以及以后的课题研究有非常大的作用.而杨老师的课件更是做的很让人佩服,学习起来轻松多了.但在教学上,可能因人而异,仍有一些地方需要改进一下.课堂气氛有些时候仍然沉闷,我们应该营造一个轻松愉快的气氛,有利于所有的同学都来参与教学,尤其是大四的学生.老师在讲课的同时应该适当和同学一起完成文献检索,多用一些实例,少介绍一点理论的知识,文献检索是一门应用性非常强的课程,多让学生动手, 而少记一些理论知识.不过在这门课上我学到了很多,这和杨老师的努力是分不开的.
“信息资源共享”课程检索报告一 检索课题数字图书馆个性化服务研究现状二 主题分析随着数字图书馆建设和网络通讯技术的高速发展, 数字资源越来越多, 而人们获取所需资源的可能性则越来越少, 用户需求的专业化、垂直化激化了数字图书馆大量信息数据库与用户需求之间的矛盾。1999 年, 美国图书馆与信息技术联合会(LITA) 10 位著名的数字图书馆专家在研讨会上, 把个性化定制服务列为数字图书馆发展的7 大趋势之首。目前, 数字图书馆个性化的信息服务已经开始得到普遍的关注, 人们正在为提供个性化信息服务做出努力的尝试。数字图书馆个性化服务是近几年数字图书馆研究中受到关注较多的一个研究方向,数字图书馆个性化服务是基于信息用户的信息使用行为,习惯,偏好,特点及用户特定的需求,来向用户提供满足其个性化需求的信息内容和系统功能的一种服务。关于数字图书馆个性化服务研究现状,该主题涉及到:(1)数字图书馆个性化服务的有哪些介绍(2)数字图书馆个性化服务的模式有什么(3)数字图书馆个性化服务的技术研究有哪些(4)数字图书馆个性化服务研究的最新进展(2005年-2007年)三 检索情况(一)检索工具1.维普中文期刊数据库 (1989-2007)2.中国期刊全文数据库 (1994-2007)(二)检索过程1.检索途径 关键词 题名 主题词2.检索用词 数字图书馆 关键词或题名、主题词 个性化服务 关键词或题名、主题词3.检索策略(1)维普中文期刊数据库(题名或关键词=数字图书馆)*(题名或关键词=个性化服务) 在高级检索中选择题名或关键词字段,输入“数字图书馆”和“个性化服务”两个检索词进行限定,年代限定在2005-2007年,共检索出78条记录。(2)中国期刊全文数据库(题名或关键词=数字图书馆)* (题名或关键词=数字图书馆)在高级检索中选择篇名字段,输入“数字图书馆”与“个性化服务”,年代限定在2005-2007,共检出89条记录。四 检索结果分析(一) 检索结果经检索上述两个数据库,有关数字图书馆个性化服务的研究论文众多,现选出其中具有代表性,研究主题未重复的文献。1.中国期刊全文数据库(1) 数字图书馆个性化信息服务系统研究 刘燕平 图书情报工作 2006/S2(2) 数字图书馆个性化服务系统分类体系问题 叶红 科技信息(学术研究) 2007年13期(3) 浅析智能搜索引擎技术及其在数字图书馆个性化信息服务中的应用 王林廷 高校图书情报论坛 2006年01期(4)数据挖掘技术在数字图书馆个性化服务中的应用 朱冰冰 科技情报开发与经济 2006年24期(5)数字图书馆个性化信息服务发展研究 马维华 郑州大学学报(哲学社会科学版) 2006年06期(6) 智能推送技术在数字图书馆个性化服务中的应用 石岩 情报探索 2006年11期(7) 基于文本过滤的数字图书馆个性化服务技术 张帆 计算机工程与应用 2006年31期(8) 数字图书馆信息门户的个性化服务模式 何平 中国信息导报 2006年08期(9) 网络信息技术下的数字图书馆个性化服务 张丹 林区教学 2006年07期(10)MyLibrary——数字图书馆个性化服务新趋势 杨华 农业图书情报学刊 2006年08期(11)基于Web服务组合的数字图书馆个性化动态定制服务构建 张晓青 情报学报 2006年03期(12)校园网中数字化图书馆个性化服务的实现 朱江峰 科技经济市场 2006年01期(13)数字图书馆的个性化推送服务 白雪松 图书馆杂志 2005年09期(14)Web日志挖掘在数字图书馆个性化服务中的应用 王英培 科技情报开发与经济 2005年22期(15)国内外数字图书馆个性化信息服务系统的功能与特征比较研究 张俊 情报理论与实践 2005年06期(16)基于知识管理的数字图书馆个性化服务机制研究 郭琳 四川图书馆学报 2004年05期2.维普中文期刊数据库(17)基于Web挖掘的数字图书馆个性化技术研究 王艳 张帆 情报杂志 2007年1期(18)基于文本过滤的数字图书馆个性化服务技术 张帆 杨炳儒 计算机工程与应用 2006年31期(19) 数字图书馆信息门户的个性化服务模式 何平 陈有志 中国信息导报 2006年8期(20)个性化服务深度与广度解决方式探讨 刘月胜 数字图书馆论坛 2006年6期(21)个人数字图书馆模式的分析 石德万 李军 现代情报 2005年9期(22)数字图书馆个性化信息环境与服务构建 杜安平 韶关学院学报 2005年3期(23)数字图书馆个性化信息服务的技术实现 张云瑾 许春漫 农业图书情报学刊 2005年6期(24)个性化信息服务的模式研究及策略分析 杜春光 国家图书馆学刊 2005年2期(二) 检索结论文献一论述了个性化信息服务的涵义,阐述数字图书馆开展个性化信息服务的有利条件,国内外图书馆的有关研究开发状况,分析国内数字图书馆个性化信息服务系统应用实例,并时其工作流程,主要功能进行剖析,指出该系统目前存在的问题,提出改进对策。文献二围绕数字图书馆个性化服务系统分类体系问题展开探讨。首先,简要介绍数字图书馆个性化服务系统的主要内容,包括其定义和服务内容。其次,从用户分类和信息分类两个方面阐述目前数字图书馆个性化服务系统存在的问题。用户分类主要存在的两个问题,根据用户特点分析提出相应建议。信息分类问题从五个方面进行讨论,列举数字图书馆个性化服务系统页面进行分析,提出解决方法。文献三介绍了智能信息检索的实质和发展方向,是智能搜索引擎技术的不断改进和广泛应用。以这一技术为基础构建数字图书馆的个性化服务系统,是数字图书馆信息服务的现实需要。文章论述了当前搜索引擎存在的不足,概述了智能搜索引擎的原理机制及其优越性,探讨了该技术在数字图书馆个性化服务中的应用。文献四阐述了数字图书馆的定义,介绍了个性化服务的工作原理和国内外个性化服务系统的现状,探讨了分类模型、关联模型、序列模型、聚类模型、回归模型以及时间序列模型的原理,对如何把其用在数字图书馆的个性化服务上以描述用户需求,提出了建议。文献五介绍了数字图书馆个性化信息服务是当今图书馆发展的重要趋势,目前国内外都已有比较成熟的数字图书馆个性化信息服务系统,服务方式及其功能也多种多样,但是探索图书馆个性化信息服务有效模式的任务仍很艰巨。文献六介绍了智能推送技术和个性化服务的内容,讨论了将智能推送技术应用于数字图书馆个性化服务,以及智能推送技术存在的优势与不足。文献七提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献八试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展建势。文献九简述了数字图书馆个性化服务的内涵,分析了网络信息技术对其各项服务的支撑,并通过My Library实例对这些具体技术的集成化运用加以探讨,为构建可互操作的数字图书馆个性化服务系统提供参考。文献十就My Library(我的图书馆)的产生,及其概念、类型、特征、原理、功能等诸方面做了简要的论述,并介绍了它在国内外的发展现状,指出其今后的发展方向。文献十一介绍了Web服务组合是一种利用现有Web服务动态构建新的能满足用户需求的复杂Web服务的Web服务技术。将数字图书馆各种资源组件、应用组件、功能组件和管理组件进行Web服务描述,人们就能利用Web服务组合技术根据用户的个性化需求实现对不同数字图书馆各种组件的动态集成,从而实现开放环境下数字图书馆的个性化动态定制服务。本文讨论了基于Web服务组合的数字图书馆个性化动态定制服务的基本系统架构、构建模型,并对构建过程中需要注意的几个问题展开了讨论。文献十二介绍了数字化图书馆建设是图书信息化发展的必然,而个性化服务能够根据用户不同的特点,提供切实的服务,以更好地为读者服务。本文对数字化图书馆的个性化服务进行了讨论,分析了关键的实现技术,并给出了部分核心代码。文献十三介绍了个性化推送服务是数字图书馆研究的热点,也是建设数字图书馆的关键问题之一。本文针对各种不同的信息形式提出了相应的实现方案,并对实际操作中的几个难点事项做了简要讨论。文献十四介绍了Web日志挖掘的基本概念和过程,指出通过对读者在数字图书馆服务中留下的日志信息进行挖掘,可以实现个性化服务,更好地满足不同类别读者的需求。文献十五从个性化信息服务的概念入手,介绍了个性化信息服务的几种类型,包括分类定制服务、信息推送服务、智能代理服务和垂直门户服务等,并介绍了目前国内外若干图书馆已经开展的个性化信息服务的典型应用实例。在此基础上总结了这些个性化信息服务系统的共同功能与特征,并进行了一些比较研究。文献十六介绍了构建一个基于信息过滤技术的信息服务系统是数字图书馆实现个性化信息服务的有效手段。通过对信息过滤技术概念的研究和与信息检索概念的比较,抽象出此类系统的一般模型,并沿用查全率和查准率评价信息过滤的效果,最后分析了个性化信息服务系统实现的关键技术。文献十七提出一种基于Web挖掘技术的个性化实现策略,针对数字图书馆资源的文献,改进了经典的算法,分别从Web内容挖掘、结构挖掘和日志挖掘出发,建立用户动态的兴趣特征模型,使之更具有实用性和针对性。文献十八提出在数字图书馆的应用中,个性化服务可以为用户提供符合其兴趣的检索结果。提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。文献十九试图对数字图书馆信息门户下的个性化服务模式进行研究,从双向互动式信息服务、集成式信息检索服务、动态式馆藏特色信息服务、渗透式垂直信息门户服务、追踪式数据挖掘信息服务等服务模式来探讨数字图书馆个性化服务的有效模式及发展趋势。文献二十提出数字图书馆的个性化服务决定了它在借助网络技术的基础上向学科馆和联盟制方向发展,以提高资源的利用率和解决个性化服务的深度与广度问题。文献二十一根据个人数字图书馆文献信息资源存储位置的不同.把个人数字图书馆划分为远程个人数字图书馆和本地个人数字图书馆两种模式,着重对这两种模式的个人数字图书馆的功能特点进行比较分析。文献二十二提出构建数字图书馆的个性化信息服务实际上就是要在数字图书馆上实现个性化资料、个性化检索、个性化过滤、个性化服务等四种环境.数字图书馆可以开发个人图书馆、检索帮助、个性化信息咨询、信息代理、垂直门户等多种个性化信息服务。文献二十三阐述了数字图书馆个性化信息服务的概念、研究与应用的现状,并分析了实现数字图书馆个性化信息服务所需的技术。文献二十四强调个性化信息服务在数字图书馆中有其特定的定义,也是数字图书馆发展中的必需。根据网络环境下图书馆信息服务的内容及用户行为的不同,可以有多种个性化服务模式,有策略地开展服务。(三) 结果分析 从2005-2007年所发表的关于图书馆学个性化服务的论文可以看出,研究的主题和方向主要集中在以下几个方面:1. 数字图书馆个性化服务的概念研究。在中国期刊全文数据库检索到的89篇文章中,有40篇是论述图书馆个性化服务概念的研究。在这些文章中作者都对数字图书馆个性化服务概念有自己的认识,对于这个概念的研究也越来越深入。2. 数字图书馆个性化服务的方式研究。对于数字图书馆个性化信息服务模式, 也在摸索实践中。目前有以下几种方式:(1)信息分类定制服务方式。分定制是指信息用户可以按照自己的目的和需求,在某一特定的系统功能和服务形式中,自己设定信息的资源类型、表现形式,选取特定的系统服务功能等。(2)信息推送服务方式。是运用推送技术(push technology)来实现的一种个性化主动信息服务的方式。(3)信息智能代理服务方式。它是一种能够完成委托任务的计算机系统,能模仿人的行为执行一定的任务,不需要或很少需要用户的干预和指导。通过跟踪用户在信息空间中的活动,自动捕捉用户的兴趣爱好,主动搜索可能引起用户兴趣的信息并提供给用户。(4)信息垂直门户服务方式。通过汇聚网上某一特定专题信息资源并对其进行挖掘及加工,以满足用户基于专业的深入的信息需求。(5)信息帮助检索服务方式。如何帮助用户进行高效的信息检索也是当今数字图书馆信息服务向纵深发展的一个重要内容。(6)数据挖掘服务方式。从数据库中发掘人们感兴趣的知识,这些知识是隐含的、潜在的,目的是帮助用户寻找数据间潜在的关联。(7)信息呼叫中心服务方式。主要利用电话、传真等方式来服务客户,处理简单的呼叫流程。在这些方式中,现在比较热门的个人图书馆(My library)是上述部分个性化服务方式的具体应用,是当前开发应用较为成熟的图书馆个性化服务模式系统,也是一个完全个性化的私人信息空间。3.数字图书馆个性化服务关键技术研究。数字图书馆个性化信息服务的应用技术, 集现代信息技术之大成。它包括推送技术、智能代理技术、智能搜索引擎技术、网页动态生成技术、数据挖掘技术、信息过滤技术、过程跟踪技术、安全身份认证技术、数据加密技术等, 这些都可以为数字图书馆的个性化服务方式提供技术支持。4.国内外数字图书馆个性化服务现状研究。还有一部分论文是主要介绍当今国内外数字图书馆个性化服务的现状,通过介绍这些先进的技术和模式来指导我国数字图书馆个性化的服务。5.其他研究。除了数字图书馆个性化信息服务的概念、模式、技术和国内外研究现状外, 数字图书馆个性化信息服务的研究还就数字图书馆个性化信息服务的模型构建、用户评价、馆员角色的变化、存在的问题与对策等作了深入探讨。综上所述,这两年国内有关数字图书馆个性化服务的研究可谓是硕果累累,随着对数字图书馆个性化信息服务理论研究和实践的不断深入,我国数字图书馆个性化信息服务一定能够真正实现以用户需求为中心, 利用数字图书馆信息资源开展不同层次的、多种类型的、满足用户个性需求的有效信息服务。五 检索情况总结由于这个学期开了数字图书馆这门课,对于数字图书馆有一些简单的了解,特别是对个性化信息服务这部分内容有兴趣,课本上涉及得比较少,所以就把这个内容作为了检索主题。在选择检索工具时选择了平时最常用的两个检索工具,本来还选用了中文Google,想找一下国内在研究这个主题的项目或者网站,但是检索到的内容数量实在太庞大,而且检索到的大量结果都来自各个数据库的论文,最后就放弃了使用搜索引擎。在构造检索策略时,因为该主题比较简单,不用构造很复杂的检索式,就选择了“数字图书馆”和“个性化服务”作为关键词,开始有想到是不是需要使用与“数字图书馆”概念相近的“电子图书馆”或者“虚拟图书馆”,但考虑到国内现在已经比较统一的使用“数字图书馆”这个概念,使用其他两个词检索到的文章不多,所以还是以数字图书馆为重点。检索途径选择了关键词,题名以及主题词,在使用中国期刊全文数据库进行检索时,一开始是使用关键词作为检索途径,检索出423条记录,但是有很多文章与该主题相关度不高,所以采用了篇名作为检索途径,这样两个词同时限定在文章题名中,检索的相关度就非常高,但也可能会造成漏检。觉得自从学习检索课程以来,检索最难的就是检索式的构造,检索式构造的好与坏,直接关系到检索结果的好坏。维普提供的字段有题名或关键词字段,使用高级检索将两个检索词都限定在这个字段中,检索出来的结果相对比较精确。检索完成之后,接下来的工作就是分析检索结果,这其实也是难度挺大的一项任务,要看完150几篇文章不是一件简单的事,文摘和篇名这个时候就帮了很大的忙了,一般看文摘可以略知一二,需要了解详细内容的再打开全文阅览。从文章中归纳出研究的主要内容和方向,找出比较有特色而又不重复的内容,最后再整理出结论,这就是我整个辛苦但却有趣的检索过程。通过完成这次作业,首先就是复习与巩固了以往的知识,平时虽然也经常在进行检索,但是严格按照检索步骤进行的就不太多,也没有这么有条理的对整个检索过程做一个安排,并按照计划一步一步的执行,直到完成检索结果。其次就是以往做作业都是完成老师布置的具体任务,有些题目比较简单或是比较有兴趣的检索起来还好,有些比较深奥的主题做起来真的十分困难,没有专业背景,拿到题目和检索出来的结果就觉得十分茫然。而这次老师让我们自己选择题目,我就可以从自己的兴趣和想了解的领域下手,这样完成作业的过程也不再那么枯燥,兴致自然也大了很多。还有最重要的是,做作业的目的不只是完成作业,更重要的是有收获,巩固了检索知识自不用说,通过这次阅读大量文章,也算对所检索的主题有了一个大概的认识和了解,增长了知识,开阔了视野,可是说从完成这次检索作业中的确是收获不少。
信息检索技术论文 –基于网格的面向专业内容的Web信息检索1 引言近年来,互联网得到了迅速的发展,网上信息资源愈来愈庞大,且信息具有量大、分散、异构等特性,因此,传统的Web信息检索工具开始暴露出它性能低下的一面,具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录,根本无法从中再细找,或者找到的内容和要找的内容不是一个专业领域的,造成信息无效的现象。但随着人们信息意识的增强,对信息内容及信息服务的需求也在不断的演变和发展,对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务,使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构,它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理,为用户快速、有效地获取自己所需要的信息提供了一种方法。2 基于网格的面向专业内容的Web信息检索体系结构的设计 网格计算是近年来国际上兴起的一种重要信息技术,其目的是将网上各种资源组织在一个统一的大框架下,为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台,实现互联网上所有资源的全面连通,实现信息资源的全面共享。 为解决不同领域复杂科学计算与海量信息服务问题,人们以网络互连为基础构造了不同的网格,他们在体系结构,要解决的问题类型等方面各不相同,但网格计算至少需要具有三种基本功能:资源管理、任务管理、任务调度。本文设计的信息检索体系结构,围绕网格计算的基本功能及信息检索的特点,主要有以下三个层次组成:见图1(1) 网格结点:结点是网格计算资源的提供者,本系统主要是由一系列的集群系统组成,它们在地理位置上是分布的,构成了一个分布检索群体,作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理,维护和查询。(2) 网格计算中间件:中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分,它根据用户的信息请求任务,在整个网格内负责信息资源的匹配、定位,实现用户任务到集群系统的映射。(3) 网格用户层:主要为用户应用提供接口,支持用户对所需要的信息资源进行描述、创建、提交等。 图1本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统,集群系统对集群内的资源进行管理和任务调度,再利用网格中间件对各集群系统进行管理,从而形成对整个网格资源的管理,并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略,又可利用中间件在全局意义上对网格信息资源进行管理。2.1 集群系统的设计由于Web信息资源数量十分庞大,用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题,往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体,并使其从客户端看来就如同一台服务器在服务,这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略,将Web信息资源按地区按专业内容分割,一方面使信息资源数量相对缩小,便于数据的组织、管理和维护,另一方面按专业内容易于制定一个公用的XML规范,便于集群内各类信息资源的描述,从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent,基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。资源服务Agent根据信息资源请求任务,利用XML信息集成系统提供的数据,为用户提供实际的资源检索操作,并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法:XML(the eXtensible Markup Language)是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准,它是一种可以对信息进行自我描述的语言,它允许开发人员通过创建格式文件DTD(Document Type Definitions)定制标记来描述自己的数据,DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本,因此具有跨平台的优点,XML的优点在于(1)简单、规范性:XML文档基于文本标签,有一套严谨而简洁的语法结构,便于计算机、用户理解;(2)可扩展性:用户可以自定义具有特定意义的标签,自定义的标签可以在任何组织、客户、应用之间共享;(3)自描述性:自描述性使其非常适用不同应用间的数据交换,而且这种交换是不以预先定义一组数据结构为前提,因此具有很强的开放性;(4)互操作性:XML可以把所有信息都存于文档中传输,而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用,因此它为基于特定专业内容的表达提供了一种极好的手段,可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类:存入仓库法(the ware-housing approach)和虚拟法(the virtual approach),可使用这两类方法利用XML在数据组织和交换方面的优越性,采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射,建立基于XML的Web信息集成系统,其结构与获取信息的工作过程参见文献[2]。图22.2 网格中间件的设计图3所示的网格中间件的主要功能是(1)消除不同用户与集群系统之间数据表达的差异,使信息资源数据对用户来说是透明的;(2)管理、维护Web上分布的各集群系统,网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息,对关系数据库的操作可维护集群系统的分布式逻辑,使本结构在可变性和扩充性上具有柔性;(3)接受用户的信息请求任务,能快速定位于满足要求的集群系统,通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下:(1) 接收Agent模块:主要用于登记、接收、管理各种信息资源请求任务,并提供安全认证和授权。(2) 关系数据库及数据服务Agent:关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。(3) 格式转换Agent模块:提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的,各用户对同一数据有不同的表示方法(对信息资源描述存在差异)由于XML文档中这种格式差异体现在与之相关的DTD/Schema上,因此经过格式转换,可使信息资源的格式对用户是透明的。(4) XML文档分析Agent模块:提取格式转换后的XML文档中各个标签,通过查询网格中间件中的关系数据库,实现用户信息请求任务与集群系统的对应关系,并得到满足条件的集群系统的相关信息,获取各集群系统的接口参数。(5) 发送Agent模块:将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术,Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征,代表用户完成用户的任务,并能动态适应环境的变化更好地满足用户的需求,提高信息检索的能力。文秘杂烩网