文本信息抽取研究的论文

发布时间：2023-12-08 11:33:59

文本信息抽取研究的论文

翟成祥，男，1965年生。现在美国伊利诺伊大学香槟分校（UIUC）计算机系教授，并同时在该校的生物信息研究所，图书馆信息科学系，及统计系任兼职教授。翟成祥主要从事信息检索，大规模信息管理研究与开发，已在国际相关领域的顶尖学术刊物上发表论文50余篇，获得4项专利，并获得多种奖励，包括美国计算机学会信息检索分会年会(ACM SLGLR,ACMSLGIR)2004年度最佳论文奖，美国国家科学基金会的青年科学基金奖（NSF CAREER），及2004年度美国青年科学家和工程师最高荣誉总统奖（PECASE）。翟成祥的主要研究成果包括开发新型信息检索模型，个人化信息检索技术，自动文本信息抽取技术，及生物信息分析算法，部分研究成果正在向产品转化。他的科研项目吸引了多方面的科研资助，包括5项美国政府资助的项目及美国主要公司，如微软, Google，及IBM等。翟成祥的教学亦取得很大成就，曾获得UIUC优秀教师称号，一级杰出教师指导奖。迄今，他已培养出11名研究生，其中2名博士毕业生现在美国微软万维网检索研究开发实验室，Google公司任研究工程师，另1名博士毕业生现在美国俄亥俄州立大学计算机系任教。

信息抽取（information extraction），简称IE，即从自然语言文本中，抽取出特定的事件或事实信息，帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体（entity）、关系（relation）、事件（event）。例如从新闻中抽取时间、地点、关键人物，或者从技术文档中抽取产品名称、开发时间、性能指标等。能从自然语言中抽取用户感兴趣的事实信息，无论是在知识图谱、信息检索、问答系统还是在情感分析、文本挖掘中，信息抽取都有广泛应用。

信息抽取主要包括三个子任务：关系抽取：通常我们说的三元组(triple)抽取，主要用于抽取实体间的关系。实体抽取与链指：也就是命名实体识别。事件抽取：相当于一种多元关系的抽取。

关系抽取（RE）是为了抽取文本中包含的关系，是信息抽取（IE）的重要组成部分。主要负责从无结构文本中识别出实体，并抽取实体之间的语义关系，被广泛用在信息检索、问答系统中。本文从关系抽取的基本概念出发，依据不同的视角对关系抽取方法进行了类别划分；最后分享了基于深度学习的关系抽取方法常用的数据集，并总结出基于深度学习的关系抽取框架。

完整的关系抽取包括实体抽取和关系分类两个子过程。实体抽取子过程也就是命名实体识别，对句子中的实体进行检测和分类；关系分类子过程对给定句子中两个实体之间的语义关系进行判断，属于多类别分类问题。例如，对于句子“青岛坐落于山东省的东部”，实体抽取子过程检测出这句话具有“青岛”和“山东”两个实体。关系分类子过程检测出这句话中“青岛”和“山东”两个实体具有“坐落于”关系而不是“出生于”关系。在关系抽取过程中，多数方法默认实体信息是给定的，那么关系抽取就可以看作是分类问题。

目前，常用的关系抽取方法有5类，分别是基于模式匹配、基于词典驱动、基于机器学习、基于本体和混合的方法。基于模式匹配和词典驱动的方法依靠人工制定规则，耗时耗力，而且可移植性较差，基于本体的方法构造比较复杂，理论尚不成熟。基于机器学习的方法以自然语言处理技术为基础，结合统计语言模型进行关系抽取，方法相对简单，并具有不错的性能，成为当下关系抽取的主流方法，下文提到的关系抽取方法均为机器学习的方法。关于信息关系抽取，可以从训练数据的标记程度、使用的机器学习方法、是否同时进行实体抽取和关系分类子过程以及是否限定关系抽取领域和关系专制四个角度对机器学习的关系抽取方法进行分类。

根据训练数据的标记程度可以将关系抽取方法分为有监督、半监督和无监督三类。

有监督学习，处理的基本单位是包含特定实体对的句子，每一个句子都有类别标注。优点：取能够有效利用样本的标记信息，准确率和召回率都比较高。缺点：需要大量的人工标记训练语料，代价较高。

半监督学习，句子作为训练数据的基本单位，只有部分是有类别标注的。此类方法让学习器不依赖外界交互，自动地利用未标记样本来提升学习性能。

无监督学习，完全不需要对训练数据进行标注，此类方法包含实体对标记、关系聚类和关系词选择三个过程。

根据使用机器学习方法不同，可以将关系抽取划分为三类：基于特征向量的方法、基于核函数的方法以及基于神经网络的方法。

基于特征向量的方法，通过从包含特定实体对的句子中提取出语义特征，构造特征向量，然后通过使用支持向量机、最大熵、条件随机场等模型进行关系抽取。

基于核函数的方法，其重点是巧妙地设计核函数来计算不同关系实例特定表示之间的相似度。缺点：而如何设计核函数需要大量的人类工作，不适用于大规模语料上的关系抽取任务。

基于神经网络的方法，通过构造不同的神经网络模型来自动学习句子的特征，减少了复杂的特征工程以及领域专家知识，具有很强的泛化能力。

根据是否在同一个模型里开展实体抽取和关系分类，可以将关系抽取方法分为流水线（pipeline）学习和联合（joint）学习两种。

流水线学习是指先对输入的句子进行实体抽取，将识别出的实体分别组合，然后再进行关系分类，这两个子过程是前后串联的，完全分离。

联合学习是指在一个模型中实现实体抽取和关系分类子过程。该方法通过使两个子过程共享网络底层参数以及设计特定的标记策略来解决上述问题，其中使用特定的标记策略可以看作是一种序列标注问题。

根据是否限定抽取领域和关系类别，关系抽取方法可以划分为预定义抽取和开放域抽取两类。

预定义关系抽取是指在一个或者多个固定领域内对实体间关系进行抽取，语料结构单一，这些领域内的目标关系类型也是预先定义的。

开放域关系抽取不限定领域的范围和关系的类别。现阶段，基于深度学习的关系抽取研究集中于预定义关系抽取。

基于深度学习的关系抽取方法常用的数据集有 ACE关系抽取任务数据集、 SemEval2010 Task 8数据集、 NYT2010数据集等.

ACE关系抽取任务数据集：ACE2005关系抽取数据集包含599篇与新闻和邮件相关的文档，其数据集内包含7大类25小类关系。

SemEval2010 Task 8数据集：该数据集包含9种关系类型，分别是Compoent-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和Entity-Origin。考虑到实体之间关系的方向以及不属于前面9种关系的“Other”关系，共生成19类实体关系。其中训练数据 8000个，测试数据2717个。

NYT2010数据集是Riedel等人在2010年将Freebase知识库中的知识“三元组”对齐到“纽约时报”新闻中得到的训练数据。该数据集中，数据的单位是句包，一个句包由包含该实体对的若干句子构成。其中，训练数据集从《纽约时报》2005—2006年语料库中获取，测试集从2007年语料库中获取。

基于深度学习的关系抽取方法模型构建的重点在于利用不同神经网络的特点来抽取样本的特征，以学习样本的向量表示。在学习过程中，根据所用的神经网络基本结构的不同，可将基于深度学习的关系抽取方法分为基于递归神经网络（recursive neural network,Rec-NN）的方法、基于卷积神经网络的方法、基于循环神经网络（recurrent net neural net-work,RNN）的方法和基于混合网络模型的方法四类。

基于递归神经网络的关系抽取方法首先利用自然语言处理工具对句子进行处理，构建特定的二叉树，然后解析树上所有的相邻子节点，以特定的语义顺序将其组合成一个父节点，如下图3所示。这个过程递归进行，最终计算出整个句子的向量表示。向量计算过程可以看作是将句子进行一个特征抽取过程，该方法对所有的邻接点采用相同的操作。

由于句子含义跟单词出现的顺序是相关的，因此关系抽取可以看作是一个时序学习任务，可以使用循环神经网络来建模。基于循环神经网络的方法在模型设计上使用不同的循环神经网络来获取句子信息，然后对每个时刻的隐状态输出进行组合，在句子层级学习有效特征。在关系抽取问题中，对每一个输入，关系的标记一般只在序列的最后得到。Zhang等首次使用双向循环神经网络来进行关系抽取，提出了BRNN模型。如下图7 所示，在双向循环神经网络中某一时刻的输出不仅依赖序列中之前的输入，也依赖于后续的输入。

为了更好地抽取句子中的特征，研究人员使用递归神经网络、卷积神经网络与循环神经网络3种网络及其他机器学习方法进行组合建模来进行关系抽取。 Vu等提出了基于文本扩展表示的ECNN和基于链接的UniBRNN模型，将每个神经网络得到的多个结果根据投票机制得到关系的最终抽取结果。 Xiao等将注意力机制引入一个多级的循环神经网络，该方法使用文本序列作为输入，根据标记实体的位置将句子分为5部分，使用同一个双向LSTM网络在3个子序列上独立学习，然后引入词层级的注意力机制关注重要的单词表示，分别得到子序列的向量表示；随后，使用双向RNN网络进一步抽取子序列和实体的特征，并再次使用注意力机制将其转换成句子的最终向量表示，并送入到分类器中。 Nguyen等将传统基于特征的方法（log-linear模型）、卷积神经网络方法和循环神经网络方法使用集成、投票等机制进行组合。 zhang等提出在双向LSTM 的基础上叠加注意力机制，以及使用卷积神经网络层获取句子的表示，再送入到一个全连接层和softmax层进行分类。在联合学习问题上，Zheng等使用递归神经网络和卷积神经网络组合来进行联合学习，也是一种共享底层网络参数的方法。

[1]庄传志,靳小龙，基于深度学习的关系抽取研究综述[J].中文信息学报,2019,33(12):1-18.

更多自然语言处理相关知识，还请关注 AINLPer公众号，极品干货即刻送达。

网络信息检索方法与应用这个原创。联系看我资料

本科毕业论文抽检信息平台

本科毕业论文抽检信息平台。中国日报1月7日电记者从教育部获悉，7日，教育部印发的通知。通知指出，教育部建立全国本科毕业论文抽检信息平台，本科毕业论文抽检每年进行一次，抽检对象为上一学年度授予学士学位的论文，抽检比例原则上应不低于2%。

本科毕业论文每年抽检比例不低于2%。教育部昨天印发《本科毕业论文(设计)抽检办法(试行)》，今年起启动本科毕业论文（设计）抽检试点工作，以推动高校加强培养过程管理、把好毕业出口质量。抽检每年进行一次且比例不低于2%，连续2年均有“存在问题毕业论文”且较多的高校将被减少招生计划，对查实存在学术不端行为的毕业论文应依法撤销已授予学位。建立全国本科毕业论文抽检信息平台据教育部教育督导局负责人介绍，教育部建立全国本科毕业论文抽检信息平台，省级教育行政部门基于抽检信息平台和本地区学士学位授予信息，采取随机抽取的方式确定抽检名单，抽检论文要覆盖本地区所有本科层次普通高校及其全部本科专业。本科毕业论文抽检重点对选题意义、写作安排、逻辑构建、专业能力以及学术规范等进行“合格性”考察。区别于博士硕士学位论文抽检重点考察研究生创新性和科研能力，本科毕业论文抽检重点考察本科生基本学术规范和基本学术素养。采取随机匹配方式组织同行专家评议省级教育行政部门采取随机匹配方式组织同行专家对抽检论文进行评议，提出评议意见。本科毕业论文抽检分初评、复评两个环节。初评阶段，每篇论文送3位同行专家，3位专家中有2位以上（含2位）评议意见为“不合格”的，将认定为“存在问题毕业论文”。3位专家中有1位评议意见为“不合格”，将再送2位同行专家进行复评。复评阶段，2位复评专家中有1位以上（含1位）专家评议意见为“不合格”，将认定为“存在问题毕业论文”。建立本科毕业论文抽检申诉机制本科毕业论文抽检结果由省级教育行政部门向有关高校反馈、抄送省级学位委员会，同时报教育部备案。抽检结果将以适当方式向社会公开。同时，《办法》要求，教育部定期对各省级教育行政部门本科毕业论文抽检工作情况开展监督检查，并将工作情况纳入省级人民政府履行教育职责评价的范畴。省级教育行政部门应建立本科毕业论文抽检申诉机制，规范申诉处理程序，保障有关高校和学生的合法权益。涉抄袭剽窃等学术不端行为撤销学位本科毕业论文抽检结果的使用方面，对连续2年均有“存在问题毕业论文”且比例较高或篇数较多的高校，省级教育行政部门应在本省域内予以通报，减少其招生计划，并进行质量约谈，提出限期整改要求，高校应对有关部门、学院和个人的人才培养责任落实情况进行调查，依据有关规定予以追责。《办法》指出，对连续3年抽检存在问题较多的本科专业，经整改仍无法达到要求者，视为不能保证培养质量，省级教育行政部门应依据有关规定责令其暂停招生，或由省级学位委员会撤销其学士学位授权点。此外，对涉嫌存在抄袭、剽窃、伪造、篡改、买卖、代写等学术不端行为的毕业论文，高校应按照相关程序进行调查核实，对查实的应依法撤销已授予学位，并注销学位证书；抽检结果还将作为本科教育教学评估、一流本科专业建设、本科专业认证以及专业建设经费投入等教育资源配置的重要参考依据。

信息存取系统检索机制研究论文

网络信息检索方法与应用这个原创。联系看我资料

信息检索技术论文 – 基于网格的面向专业内容的Web信息检索 1 引言近年来，互联网得到了迅速的发展，网上信息资源愈来愈庞大，且信息具有量大、分散、异构等特性，因此，传统的Web信息检索工具开始暴露出它性能低下的一面，具体体现在现有的信息检索工具对用户的要求常常是找出了几千甚至上万条记录，根本无法从中再细找，或者找到的内容和要找的内容不是一个专业领域的，造成信息无效的现象。但随着人们信息意识的增强，对信息内容及信息服务的需求也在不断的演变和发展，对获取信息的专业化、实效性等方面有了新的要求。如何针对专业领域中特定的用户群为他们提供专业的、度身量造的信息服务，使用户在尽可能短的时间内有效的找到最需要的信息内容是大家普遍关注的一个问题。本文利用网格计算、集群系统、XML等技术设计了一个基于网格的面向专业内容的Web信息检索体系结构，它能将地理位置分散的、异构的信息按地区按专业内容从逻辑上进行合理的组织和管理，为用户快速、有效地获取自己所需要的信息提供了一种方法。 2 基于网格的面向专业内容的Web信息检索体系结构的设计网格计算是近年来国际上兴起的一种重要信息技术，其目的是将网上各种资源组织在一个统一的大框架下，为解决大型复杂计算、数据服务和各种网络信息服务提供一个方便用户使用的虚拟平台，实现互联网上所有资源的全面连通，实现信息资源的全面共享。为解决不同领域复杂科学计算与海量信息服务问题，人们以网络互连为基础构造了不同的网格，他们在体系结构，要解决的问题类型等方面各不相同，但网格计算至少需要具有三种基本功能：资源管理、任务管理、任务调度。本文设计的信息检索体系结构，围绕网格计算的基本功能及信息检索的特点，主要有以下三个层次组成：见图1 （1）网格结点：结点是网格计算资源的提供者，本系统主要是由一系列的集群系统组成，它们在地理位置上是分布的，构成了一个分布检索群体，作为信息共享的基础结构平台。集群系统负责整个集群范围内的信息管理，维护和查询。（2）网格计算中间件：中间件是信息资源管理和用户任务调度、任务管理的工具。它是整个网格信息资源管理的核心部分，它根据用户的信息请求任务，在整个网格内负责信息资源的匹配、定位，实现用户任务到集群系统的映射。（3）网格用户层：主要为用户应用提供接口，支持用户对所需要的信息资源进行描述、创建、提交等。图1 本系统的主要思想是在逻辑上将地理位置分散的、异构的信息划分、组建成多个集群系统，集群系统对集群内的资源进行管理和任务调度，再利用网格中间件对各集群系统进行管理，从而形成对整个网格资源的管理，并对用户的信息需求进行统一的管理和调度。这种管理模型既可以尊重各个集群系统的本地信息管理策略，又可利用中间件在全局意义上对网格信息资源进行管理。 2.1 集群系统的设计由于Web信息资源数量十分庞大，用户在利用现有搜索引擎检索信息时面临一个海量数据的查询问题，往往造成在消耗巨大的通信资源后依然存在资源查不准、查不全的问题。目前基于单一系统映射的Web服务器集群系统能把若干服务器用局域网连接成一个整体，并使其从客户端看来就如同一台服务器在服务，这使得在逻辑上合并、组织地理位置分布的信息资源成为可能。因此本文首先考虑采用分布协作策略，将Web信息资源按地区按专业内容分割，一方面使信息资源数量相对缩小，便于数据的组织、管理和维护，另一方面按专业内容易于制定一个公用的XML规范，便于集群内各类信息资源的描述，从而可建立一个基于XML的面向专业内容的信息集成系统。集群系统的具体结构见图2。集群服务器主要由接口Agent，基于专业内容的XML信息集成系统、资源服务Agent、资源发布Agent等组成。其中接口Agent根据任务提供的接口参数登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。资源服务Agent根据信息资源请求任务，利用XML信息集成系统提供的数据，为用户提供实际的资源检索操作，并将检索结果信息发送给用户。资源发布Agent用于向网格中间件提供本地信息资源的逻辑数据及接口参数。下面主要说明基于专业内容的XML信息集成系统的构造方法： XML（the eXtensible Markup Language）是 W3C于1998年宣布作为Internet上数据表示和数据交换的新标准，它是一种可以对信息进行自我描述的语言，它允许开发人员通过创建格式文件DTD（Document Type Definitions）定制标记来描述自己的数据，DTD规范是一个用来定义XML文件的语法、句法和数据结构的标准。 XML使用普通文本，因此具有跨平台的优点，XML的优点在于（1）简单、规范性：XML文档基于文本标签，有一套严谨而简洁的语法结构，便于计算机、用户理解；（2）可扩展性：用户可以自定义具有特定意义的标签，自定义的标签可以在任何组织、客户、应用之间共享；（3）自描述性：自描述性使其非常适用不同应用间的数据交换，而且这种交换是不以预先定义一组数据结构为前提，因此具有很强的开放性；（4）互操作性：XML可以把所有信息都存于文档中传输，而远程的应用程序又可以从中提取需要的信息。XML数据是不依赖于某个特定的平台的应用，因此它为基于特定专业内容的表达提供了一种极好的手段，可以作为表示专业内容的语言。目前人们研制Web信息集成系统其基本方法可分成两类：存入仓库法（the ware-housing approach）和虚拟法(the virtual approach)，可使用这两类方法利用XML在数据组织和交换方面的优越性，采用格式文件DTD和XML文档表示基于专业内容的集成模式和集成模式与资源之间的映射，建立基于XML的Web信息集成系统，其结构与获取信息的工作过程参见文献[2]。图2 2.2 网格中间件的设计图3所示的网格中间件的主要功能是（1）消除不同用户与集群系统之间数据表达的差异，使信息资源数据对用户来说是透明的；（2）管理、维护Web上分布的各集群系统，网格中间件以关系数据库方式记录所有集群系统及其所包含的专业内容的逻辑信息，对关系数据库的操作可维护集群系统的分布式逻辑，使本结构在可变性和扩充性上具有柔性；（3）接受用户的信息请求任务，能快速定位于满足要求的集群系统，通过对关系数据库的查询实现用户信息请求任务与集群系统的对应关系。内部主要功能模块说明如下：（1）接收Agent模块：主要用于登记、接收、管理各种信息资源请求任务，并提供安全认证和授权。（2）关系数据库及数据服务Agent：关系数据库记录了所有集群系统及其所包含的专业内容的逻辑信息。数据服务Agent提供集群系统对关系数据库的使用权限和对数据记录的增加、删除、检索和修改等操作。（3）格式转换Agent模块：提供用户信息资源请求文档与各集群系统中文档的格式转换功能。由于XML是自定义的，各用户对同一数据有不同的表示方法（对信息资源描述存在差异）由于XML文档中这种格式差异体现在与之相关的DTD/Schema上，因此经过格式转换，可使信息资源的格式对用户是透明的。（4） XML文档分析Agent模块：提取格式转换后的XML文档中各个标签，通过查询网格中间件中的关系数据库，实现用户信息请求任务与集群系统的对应关系，并得到满足条件的集群系统的相关信息，获取各集群系统的接口参数。（5）发送Agent模块：将转换过的信息资源请求XML文档发送到相应的集群系统中。其中Agent技术是解决分布式智能应用问题的关键技术，Agent是指能够自主地、连续地在一动态变化的、存在于其它系统中运行的、且不断于环境交互的实体。在系统中引入Agent可使系统具有人的特征，代表用户完成用户的任务，并能动态适应环境的变化更好地满足用户的需求，提高信息检索的能力。

现代信息检索论文: 现代信息检索方法的探讨要想充分利用这些浩如烟海的文献信息资源，必须借助各种各样的检索工具。同时，因特网信息资源的骤增及其异构性、动态性，不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理，从本质上变革信息资源检索方法，已成为现代化信息知识检索理论研究的热点。实践证明，将人工智能技术与信息技术结合，发挥人工智能的作用，是一条成功的经验。下面就知识检索与信息检索的关联和发展，作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配，是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种，分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式，计算机将根据提问式与系统中的记录进行匹配，当两者相符时则命中，并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”，表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。②“计算机”OR“文献检索”，表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”，表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的，对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求，除要掌握检索课题的相关因素外，还应在布尔算符对检索结果的影响方面引起注意。另外，对同一个布尔逻辑提问式来说，不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索。它是基于信息组织形式，如字符串、结构化数据库，应用信息处理方法，如排序数据查找、字符匹配，实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术，改进了基本检索功能，但缺点是对精确的提问不能给出精确的回答。从历史上看，信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前，信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容；信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众，他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。三、知识检索知识检索的基本思想是，模拟扩展人类关于知识处理与利用的智能行为和认识思维方法，是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如：抽象思维方法，形象思维方法。知识检索具有明显的优势：①实现信息服务向知识服务的转化，向用户提供潜在内容知识，以及分析预测后的超前性领域成果或知识。②提供主动服务方式，自动优化用户需求，主动提供个性化检索。③面向用户，依据用户的需求及其变化，能灵活选择理想的检索策略和技术，并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术，全面提高检索效率。知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术，基于知识和知识组织，融合知识处理和多媒体信息处理等多种方法与技术，充分表达和优化用户需求，能高效存取所有媒体类型的知识源，并能准确精选用户需要的结果。

遥感信息提取分类方法研究论文

一、ASTER遥感信息提取方法

（一）图像预处理

本次研究所采用的ASTER数据产品等级是1B和3A01，数据已进行了传感器相关系数辐射校正。在进行几何精校正过程中，校正控制点主要源于研究区于20世纪70年代完成的1∶100000地形图，地形图的精度不高，因此控制点的总平均误差控制在2个像元内。

依据《ASTER矿物指数处理手册》的数据处理程序进行暗像元纠正，以消除大气散射对图像的影响。依据直方图找出各波段最小值的像元，像元的每个波段最小值代表或近似于大气辐射的影响，减去最小值的像元即可。ASTER图像经过暗像元处理后相当于进行了一次背景值滤波，使短波红外区间的特征更加明显，有利于提取矿物指数，从而提取岩矿信息。

由于研究区下垫面影响因子复杂，必须要消除云、雪和植被等下垫面复杂因素对基岩信息的干扰，掩膜图像处理技术可以有效地扣除这些干扰信息。具体处理过程为：首先，在植被、云及雪覆盖的原始图像上提取植被NDVI指数，制作NDVI指数图像，然后做植被0-1掩膜，再进行云和雪0-1掩膜，最后将植被掩膜与云、雪掩膜图像叠加，在此基础上进行有用信息的进一步处理，制作掩膜图像。掩膜图像的效用有两个方面，一是压缩图像处理样本的统计空间，使有用的信息相对得到增强，二是排除干扰信息可能引起的假异常。

（二）岩石与矿物信息提取方法

可见光-近红外波段区域对赤铁矿、针铁矿和黄钾铁矾等铁氧化物敏感，而短波红外波段可以探测粘土和层状硅酸岩矿物的特征吸收，实现更为详细的矿物岩石识别。在热红外谱域，8～14μm是最佳大气窗口，由于硅酸盐岩在热红外区间随着SiO2含量的减少，岩石宽缓的吸收带向长波段方向系统位移，从而能够探测SinOk、SO4、CO3、PO4等原子基团基频振动及其微小变化，很容易识别硅酸盐、硫酸盐、碳酸盐、氧化物、氢氧化物等矿物，使困扰遥感地质的岩石识别成为可能，大大拓宽了遥感岩矿识别的广度与深度，从而弥补连续波段高光谱在热红外谱域的不足，使ASTER遥感技术成为岩矿识别的重要补充手段。

本次试验采用的主要信息提取方法包括基于掩膜图像的主成分分析、矿物指数和光谱角度填图方法等。

对于所有ASTER数据，常规图像均采用通道7、3、1（红、绿、蓝）假彩色合成，这种合成方案尽管植被的信息比较突出，但有利于后续使用者对照其他信息的图件判别地质体的色调异常与来源于植被的干扰异常。在该类图像中通常的规律是蓝色调大多为碳酸盐，紫色调的地质体二价铁含量相对较高。主成分图像通常采用4～9波段的主成分分析，依照试验结果，选用不同的主成分，其中3、4、5等弱信息的主成分使用较多。

1.主成分分析

主成分分析是遥感地质最有效和最常用的图像信息提取方法之一，它是将原始的遥感数据集变换成非常小且易于解译的不相关变量，这些变量含有原始数据中大部分信息，通过正交变换去除多波段图像中的相关信息，使新的组分图像之间互不相关，各自包含不同的地物信息，这是一种重要的图像增强方法。

在本次研究中，应用预处理后的掩膜图像进行主成分分析，通过将原始图像进行主成分变换，得到SWIR系统4到9波段的5个主成分的影像，将其中的PC3、PC4、PC5主成分分别置于绿、红、蓝影像层，生成主成分合成影像，并将该影像与高空间分辨率的VNIR段影像进行融合，生成新的主成分彩色合成影像。与传统的彩红外合成影像相比，主成分合成影像色差可以识别更细微的岩性差别。

从图9-6不难看出，对掩膜前后的图像均采用相同的主成分组合方案，但掩膜后的主成分图像细节更加突出，中三叠统闹仓坚沟组（T2n）板岩（蓝色调条带）被突出了。

2.矿物指数法

ETM数据只能提供一些铁锰成分异常和羟基蚀变矿物异常等一些笼统的信息，而ASTER的波段划分更精细，能够提供更为明确的矿物信息。常见矿物的特征吸收带集中在2～2.3μm之间（图9-1），即在ASTER的5～9波段之间，而ASTER的第4波段尽管没有特征吸收存在，但它是地质体反射率统计差异最大的遥感窗口。目前，国际上流行的各类矿物指数方法很多，它们主要是基于上述这些矿物特征吸收带的波长位置及其与ASTER波段设置的关系，通过简单的各类比值运算得来，如《ASTER矿物指数处理手册》所收集的澳大利亚科工组织（CSIRO）和美国地质调查局等机构经常使用的一些矿物指数（图9-7）。

图9-6 温泉水库地区ASTER掩膜主成分分析图像

（短波红外4～9波段的4、3、5主成分合成图像）

波段比值是一种经常被用来提取波谱信息的有效手段。根据代数运算的原理，当波段间差值相近但斜率不同时，反射波段与吸收波段的比值处理可增强各种岩性之间的波谱差异，抑制地形的影响，并显示出动态的范围。波段比值通常是在对大气路径辐射或由多光谱传感器产生的叠加偏移进行初步校正的基础上，由两个波段对应像元的亮度值之比或几个波段组合的对应像元亮度值之比获得。通常是选择特定目标的最小或最大反射或辐射波段作为比值波段。一种地物在两个波段上波谱辐射量的差别，常被称为波谱曲线的坡度。不同地物在同一波段上坡度有大有小，有正有负。比值法就是增强不同地物以及岩石间的这种微小差别。因而，以岩矿的特征光谱为基础，选用适当的波段比值进行彩色合成，可增强岩性和蚀变带信息，便于提取蚀变信息。

我们选取了20个各类矿物比值进行试验应用，在图像处理软件中进行流程式的批量处理，再依据具体地质背景和图像质量进行筛选，获得了较好的应用效果。尤其对粘土类矿物的蚀变和层状硅酸盐矿物的岩性识别非常有效，对巴颜喀拉山群浅变质岩岩性划分具有良好的应用效果。

所采用的各类遥感矿物指数择要描述如下：

（1）波段12/波段13比值：基性度指数（BDI）。由澳大利亚科工组织Bierwith提出，BDI与岩石中的二氧化硅含量有很好的负相关，高亮度为基性成分高的地质体，低亮度为酸性地质体，可以很好反映地质体的基性程度。在东大滩铜矿区花岗岩体外接触带及前寒武纪变质岩区，BDI显示出很好的异常及其与铜矿之间的关系。

（2）波段14/波段12比值：富石英岩类异常。异常效果良好，是硅化蚀变的重要依据。在昆仑山巴颜喀拉山群地层和温泉水库西部的下二叠统中普遍存在该指数的异常，表明均为一套高硅质的浅变质岩系。在卡巴纽尔多南部，沙地表现为高二氧化硅含量的正异常。此外，高山冰缘区土壤湿度存在垂直分带现象，同样会引起基性度指数或二氧化硅指数的假异常，这种异常往往沿等高线分布。

（3）波段13/波段14比值：碳酸盐岩异常。该比值由于热红外14通道的噪声较大，应用效果并不理想，仅在温泉水库和昆仑山一带有较好的显示。

（4）波段4/波段5比值：铁矾土异常。Bierwith定义为铁矾土，而Volesky定义为硅酸盐蚀变。高浓度异常的大面积分布通常具有重要的找矿指示意义。

图9-7 《ASTER矿物指数处理手册》中常用矿物指数汇总

（5）波段5/波段3+波段1/波段2比值：二价铁异常。该比值需要谨慎对待，尤其在高山区，雪在1波段的高反射常常引起假异常，需要结合常规合成图像具体分析。

（6）波段4/波段2比值：铁帽异常。试验区图像效果较差，尚未发现有意义的异常，但由于铁帽在找矿中的重要意义，以及其负异常的突出特征，保留这一指数是必要的。

（7）波段7/波段5比值：高岭土矿物异常，该比值不确定性较强。沟谷中条带状分布的异常可能与表生作用下的风化高岭土有关，大面积的团块状异常才具有内生蚀变矿物的意义。

（8）（波段4+波段6）/波段5比值：明矾石和高岭土指数。在纳赤台万保沟群中大面积出现这种异常，但实地考察属硅化大理岩异常。

（9）波段7/波段6比值：白云母异常。白云母在2.2μm附近的特征吸收（ASTER第6波段）较强，实践证明该指数较为敏感，对板岩类有良好的识别能力。

（10）（波段5×波段7）/（波段6×波段6）比值：粘土矿物蚀变异常。具有明确的找矿指示意义，在水泥厂东北部存在这种异常。

（11）（波段7+波段9）/波段8比值：碳酸盐-绿泥石-绿帘石组合异常。主要分布在1∶5万水泥厂幅东北部和温泉水库西部。可以与波段13/波段14比值图像碳酸盐异常对比，进一步区分碳酸盐异常和绿泥石-绿帘石异常。

（12）波段5/波段6比值：多硅云母异常。

（13）（波段5+波段7）/波段6比值：绢云母-白云母-伊利石组合异常。该组矿物高浓度异常具有明确的找矿指示意义，但大面积异常通常意味着变质岩区的片岩，如内蒙古狼山地区的大面积异常与该地区伟晶岩化、云母片岩、板岩等区域变质或侵入接触变质作用有关。在东昆仑试验区也具有很好的效果，昆仑山巴颜喀拉山群和温泉水库西部的下二叠统均有大面积的该类矿物异常。

必须指出的是，实际信息提取过程中，白云母和高岭土异常经常在空间上相伴生，在昆仑山和1∶250000填图区北部出现这种情况，很有可能仅仅是一种异常。在变质岩区有可能仅仅是白云母，而非高岭土。从图9-1不难看出，高岭石和白云母的特征吸收带都出现在ASTER的第6通道，波长位置的细微差别有可能是ASTER矿物指数方法容易产生混淆的原因。在1∶50000填图区东北部的异常也同样出现类似状况，绿帘石、绿泥石、角闪石和碳酸盐均出现异常。实际上这种异常均出现在第8通道附近，这几种矿物均存在较强的吸收带。这种情况可能仅仅是碳酸盐，但它们与典型的碳酸盐（731为蓝色调）又有明显的区别。

尽管如此，矿物指数方法在实际应用中也存在一些问题，从典型矿物曲线和ASTER波段的对比中不难看出有可能出现几种易混淆的矿物组：如高岭土-白云母和方解石-白云石-绿帘石-绿泥石-角闪石等矿物组。因此，集中在第6和第8通道的异常仅仅说明具有显著的某种矿物类的异常，而不能明确说明是何种矿物。在复杂条件下只能明确矿物类，可以在此基础上进行野外验证，从而确定矿物种类。

在热红外区间，岩石的二氧化硅含量与Si-O2振动强吸收带的波长位置呈现反比的系统位移规律，这是ASTER识别硅酸盐岩的基本依据。此外，碳酸盐岩在ASTER的14波段的强吸收也是识别该岩类的基本依据，但14通道红外辐射能量最弱，噪声大，应用效果不理想。

3.光谱角度填图方法

光谱角度填图方法（SAM）是Boardman开发的一种算法程序，一般用于超光谱图像的监督分类。该方法给出一系列光谱记录来逐一定义每个岩石类型，将每个像元看作n维图像数据库空间的一个向量，并计算与光谱数据库中光谱数据记录（参考光谱）之间的向量夹角。像元光谱与光谱记录（参考光谱）的光谱角度相匹配，即可分类为该类岩石。SAM方法的优越性在于只考虑像元光谱与参考光谱的相似性，不考虑像元相对亮度的影响，这在一定程度上改善了阴影，或者土壤湿度的干扰，因为角度的匹配不考虑向量模的大小。

该方法应用的条件是图像数据必须进行反射率反演，使像元的“视反射率”能够与光谱数据库中的参考光谱进行匹配。但实际应用中，由于大气条件和图像质量等各方面的原因，较难完成反射率反演这道科学程序，从而限制了该方法的实际应用。因为ASTER的数据质量不理想，参考光谱选用的是典型的像元光谱。

光谱角度填图方法试验区选在纳赤台北部的东昆中断裂带附近的花岗岩内外接触带（图9-8）。试验中选取的典型岩类有5个，构成参考光谱数据库。提取的像元光谱是1～9波段，依照这组波段曲线，它们的光谱角度最大差异的区间分布在4～9波段的近红外-短波红外谱段，因此将其作为SAM处理的6维向量空间，角度匹配的阈值为5度。从结果中能够看出，SAM方法不仅可以克服花岗岩中不同亮度值对分类的影响，能够进行阴影中的分类，而且能够区分常规合成图像中容易混淆的白云石（蓝色）和高岭土（黄色）。但万保沟群中的部分岩性段被归入花岗岩体（红色），说明该方法还不能区分“同谱异质”的地质体。

图9-8 纳赤台北部ASTER数据4～9通道光谱角度填图

上图—光谱角度填图结果；中图—ASTER7、3、1常规合成图像；下图—基于像元的分类参考光谱

说明：横轴为ASTER1-9波段；纵轴为像元视反射率。

二、IRS-P6遥感矿物指数试验

IRS-P6在地质上的应用国内外少有报道，主要原因是它波段分布有限，尤其缺少短波红外区间的设置，因此缺乏对羟基类地质体信息的识别能力（表9-7），但它的地面分辨率高于ETM，在ETM数据缺乏或者质量不佳的情况下也不失为一种可以替代的数据资源。本次试验也对其在地质填图中的应用效果进行了比值指数的初步应用。

表9-7 IRS-P6和ETM的波段设置对比

在可见和近红外区间，铁的特征吸收占光谱的主导因素。依据常见铁氧化矿物的吸收特征，针对0.9μm附近三价铁的宽缓吸收带，波段2和波段3良好地反映了该处的吸收特征。因此选用CH2/CH3作为三价铁氧化矿物的指数。如果没有铁氧化矿物存在，吸收带就不存在，这个比值将会是很低的。所使用几个比值指数如下：三价铁氧化矿物CH2/CH3；二价铁或暗色岩系CH1/CH4平的特征；碳酸盐岩CH1/CH2，依据碳酸盐岩一般缺乏铁矿物，缺少铁族矿物在近紫外区间很强的电子跃迁引起的吸收。

但在卡巴纽尔多南部局部地区，采用了4/3.2/3和1/2几种比值组合，完全是针对该区广泛分布的砂板岩，依据试验效果的一种选择。

IRS-P6的应用效果不如ETM，但应用上述比值合成的假彩色图像在解译应用中也能够与ETM图像取长补短。如温泉水库西部，IRS-P6有更加概括的岩性信息，而ETM由于短波红外信息的加入，图斑细碎，不宜于解译成图。

三、Hyperion遥感信息提取方法

由于高光谱遥感具有多个波段和高光谱分辨率的特点，高光谱的窄波段可以有效地区别矿物的吸收特征，利用各种矿物和岩石在电磁波谱上显示的诊断性光谱特征可以识别矿物，使矿物识别和区域地质制图成为高光谱技术主要的应用领域之一。

为了实现研究区内岩矿高光谱遥感的识别和分类，并考虑到研究区复杂的地质、地貌、气候和地表覆盖等特点对所采用的遥感图像的影响，在高光谱岩矿填图中采用地面光谱和图像光谱相结合的处理分析方法。

（一）岩石光谱测量

为了最大限度地满足光谱测量精度的要求，在本次野外光谱测量中所采用的仪器为美国ASD公司的最新产品FieldSpec FR便捷式地物波谱仪（图9-9），该仪器主要参数见表9-8。此仪器不仅具有携带方便、速度快、高信噪比、高可靠性、高重复性、操作简单和软件包功能强劲等特点，而且还可以进行实时测量和观察辐射、辐射度、CIE颜色、反射和透射。

图9-9 野外光谱采集

数据采集软件采用的是美国ASD公司的FieldSpec FR数据采集分析软件包，该软件具有速度快、实时测量、操作界面简单、灵敏度高和功能强大等优点，另外它所获取的数据可以直接被ENVI软件读取，极大地促进了后期数据处理进程。

由于研究区域特殊地理位置和复杂的气候条件，而且气候多变，考虑到诸多不利因素对光谱采集质量的影响，我们于2008年7月进行了野外光谱数据采集，此时该地区的大气、空气湿度、风、光照和云层覆盖等条件适宜于野外光谱数据采集，而且采集到的数据和选用的遥感图像数据时间匹配性好，满足研究精度要求和填图需要。

为了最大限度地满足高光谱遥感矿物填图的要求，采用了野外和室内测量相结合的测量方法。另外，在研究区域内还选择了多个具有代表性的开阔地带作为平场并进行了多次重复测量。

野外完成了包含花岗岩、变质岩、流纹岩、千枚岩、大理岩、板岩、页岩、铁矿石、铜矿石、金矿石、铅矿石、锌矿石等多达100多种不同类型以及同种类型不同状态（如岩矿石的风化面、新鲜面等）的岩矿石的光谱数据室内和野外采集工作，并且经过系统编号整理建立了各种岩矿石与其光谱数据的对应表（图9-10），为图像解译和填图工作提供了较为完备的基础数据。

表9-8 FieldSpec FR便捷式地物波谱仪相关参数

图9-10 野外实测光谱数据库

（二）矿物光谱测量

采用南京地质调查中心研发的BJKF-III型便携式近红外矿物分析仪，对矿化样品进行光谱曲线测量，得到典型蚀变矿物光谱曲线，其矿物包括方解石（图9-11a）、高岭石（图9-11b）、绿泥石（图9-11c）和孔雀石（图9-11d）等。黄铜矿为铜的硫化物矿石，具有不透明矿物的典型特征，遥感较难识别，而孔雀石存在二价铜离子引起的特征吸收带。

图9-11 东大滩铜矿典型矿物光谱曲线图

通过驼路沟钴金矿床野外调查取样，利用便携式近红外矿物光谱仪对样品进行光谱测量，进一步验证了遥感图像提取孔雀石和黄钾铁矾等矿物信息（图9-12）。同时，在驼路沟矿区断裂带内还检测出遥感图像未能解译出的石膏等矿物（图9-12d）。

（三）数据预处理

Hyperion高光谱数据经过斑点去除、回波纠正、背景去除、辐射纠正、坏像元恢复以及图像质量检查等一系列处理过程，用户拿到的数据应该不再有坏像元或条纹，但实际上却仍然存在，在进行图像应用之前，必须对图像进行预处理，纠正不正常的像元。预处理主要包括去除未定标及受水汽影响的波段、绝对辐射值转换、坏线修复及误差条带的去除、反射率定标和大气校正等。

1.去除未定标及受水汽影响的波段

Hyperion数据的242个波段中，经过辐射定标的独立波段实际上只有196个，但有些波段受水汽影响非常严重，无法应用，经去除处理后只有158个波段可用（表9-9）。

2.绝对辐射值转换

Hyperion的L1产品数据集以有符号的整型数据记录，数值范围为-32767～+32767。但实际上地物的辐射值非常小，产品生成时对VNIR和SWIR波段都采用了扩大因子，系数分别为40和80。因此，需要把图像的亮度值转换为绝对辐射值，将VNIR和SWIR波段分别除以40和80，生成绝对辐射值图像。

图9-12 驼路沟钴金矿典型矿物光谱曲线图

表9-9 剔除和保留的波段

3.坏线修复及误差条带的去除

由于Hyperion传感器的个别通道存在坏的探测元，致使图像存在着不正常数据，DN值为零或者非常小的称为死像素列，即坏线。对坏线用相邻行或列的平均值进行修复，坏线修复前与修复后效果见图9-13。

Hyperion光谱仪采用推扫式的对地观测方式，所以系统中CCD的排列方式垂直于航迹方向。由于不同行中的传感器对光谱响应值不同，在光谱入射时会导致在每个谱段上出现竖条纹，即列向条带噪声。条纹严重影响图像的质量及实际应用，应用时需要对条纹噪声进行去除处理。

本项目采用ENVI软件中的傅里叶变换及联合概率滤波平滑方法去除影像的条纹噪声，并用MNF进行效果评价。修复效果见图9-14。

图9-13 VNIR第56波段坏线修复前后图像

图9-14 垂直条纹去除前后图像对比

4.反射率定标

高光谱遥感数据定标的首要任务就是对成像光谱仪定标，将遥感器探测到的数据变换为绝对亮度或与地表反射率、表面温度等物理量有关的相对值的处理过程。通过原始图像提取的波谱曲线为太阳辐射与大气辐射共同作用的结果，这些波谱剖面曲线都是相似的，表示的是辐射亮度曲线，而不是反射率波谱曲线。因此，需要将辐射亮度曲线转换为反射率波谱曲线，以消除大气吸收、散射、地形起伏及传感器本身误差所带来的各种失真对数据的影响，恢复地物光谱数据的原貌。将影像的辐射亮度值转换成表观反射率的过程，称为反射率定标或地物光谱重建。

主要校正定标的方法有平场域定标、内部平均相对反射率定标以及经验线性定标。本次研究针对星载高光谱数据，主要采用了基于大气辐射传输理论的FLAASH定标模型，并进了分析总结，得到了比较好的应用效果。

5.大气校正

遥感卫星传感器接收到的目标物反射及发射能量辐射在传输过程中需要通过大气层，使高光谱遥感影像记录的是包含地面反射光谱信息和大气辐射传输效应引起的地面反射辐照度变化等综合信息。大气校正的目的是消除大气和光照等因素对地物反射的影响，获得地表的真实物理模型参数，如地物反射率、辐射率和地表温度等。图像是否需要进行大气校正，主要取决于图像的质量及用途。对于空间分布均匀的影像，如果只是用单时像的数据分类，由于大气对分类的影响是一致的，就没有必要进行大气校正。对于空间分布不均匀的影像，如有些区域有雾或者下雨等现象，就有必要纠正大气的影响。因此，将表示反射率亮度的原始遥感影像DN值数据转换为反射率数据，对正确利用遥感数据进行定量分析及信息提取十分关键。由于本次研究利用实测地物光谱与美国USGS光谱库标准光谱相结合的方法进行识别分类，所以需要进行大气校正。

目前，基于大气辐射传输理论的辐射校正模型主要包括：5S、6S、ATREM、MODTRAN、ACORN和FLAASH等。针对Hyperion高光谱数据的特点，本项目主要利用ENVI软件中的FLAASH模块进行大气校正处理。

为了验证FLAASH大气校正的效果，分别使用了校正前后的雪、岩石及水体的混合波谱曲线进行对比见图9-15，并采用野外实测波谱曲线与校正后的图像的波谱曲线进行对比，总的效果较好。

图9-15 大气校正前后雪、岩石和水体的波谱曲线对比

6.几何纠正

图像预处理的最后一步工作为图像的几何纠正。本研究采用了1∶100000纳赤台幅地形图，应用二次多项式和双线性内插重采样方法，共选取了117个控制点，对高光谱数据进行了几何精度校正。

（四）图像镶嵌与裁剪

本项目共定购东大滩地区5景Hyperion数据，其中KL2与KL3景在夏天获取，KL4-KL6在冬天获取，所以地物色调相差较大，进行镶嵌时必须进行调色处理。由于Hyperion数据覆盖面积宽7.7km，长85km，南北向覆盖区域较长，应用时需做剪裁处理。经过镶嵌与剪裁之后数据的覆盖范围见图9-5。

（五）信息提取

经过去除未定标和受水汽影响的波段、进行绝对辐射值转换、坏线及条纹修复、smile效应去除、大气校正和几何精度校正等过程，得到反射率数据。利用波谱分析工具Spectral Analyst进行波谱分析鉴别矿物，选择美国地质调查局波谱库，该库包括近500种矿物波谱，波长范围0.4～2.5μm。本次岩矿蚀变信息提取主要应用USGS波谱库作为端元波谱，结合野外实测光谱曲线，应用纯净像原指数法（PPI）作为辅助方法提取端元波谱，最后利用光谱角（SAM）填图法和波谱特征拟合法（SFF）成图。

本项目各类遥感图像覆盖面积达18850km2。除受风成黄土、植被、雪被、草甸土、阴影以及冰缘冻融作用所产生的碎屑坡积物等因素干扰不能有效提取信息外，其他地区均提取出大量岩石、构造和矿化蚀变信息。野外验证表明，不同的遥感数据均可有效地提取地质信息，但是适用范围和提取信息量存在差别。本项目选择温泉水库地区和玉珠峰巴颜喀拉山群分布区进行ASTER遥感岩性填图与纳赤台地区Hyperion高光谱矿物填图试验，评价国内目前尚未普及、但极具应用前景的ASTER和Hyperion等遥感信息在岩性与矿物填图中的应用潜力。

遥感的对地观测系统是一个信息流交换的过程：电磁波与地表物体相互作用形成地表信息交流。而遥感影像信息提取技术就是最大限度地从遥感图像上的光谱信息反演出目标地物本身的属性特征信息。进而可对地球表层资源与环境进行探测、分析，并揭示其要素的空间分布特征与时空变化规律。遥感影像信息的提取技术是建立在对地物规律有充分的了解的基础之上的，其综合物理手段、数学方法和地物状态识别等认识，通过对影像的处理与分析，获得能反映区域内地物的分布规律和变化过程的有效信息的技术方法。

遥感地物识别主要依赖于地物的光谱和空间特征的差异。多光谱由于光谱分辨率低，地物的光谱特征表现不充分，地物识别主要依赖地物的空间特征，包括灰度、颜色、纹理、形态和空间关系。信息处理和信息提取主要是应用图像增强、图像变换和图像分析方法，增强图像的色调、颜色以及纹理的差异，达到最大限度地区分地物的目的。随着成像光谱仪研制成功以及其产业化的发展，遥感地物信息提取也随之进入了一个崭新的时代。成像光谱对地物的识别主要是依赖于地物的光谱特征，是直接利用岩石矿物的光谱特征进行地物识别，定量分析地物信息。下面从多光谱和高光谱遥感信息处理两方面来加以论述。

1.多光谱方法研究进展

多光谱的信息提取主要集中于：色调信息提取，纹理信息提取，信息融合。

（1）色调信息提取

对于色调信息提取，主要是采用一些增强处理，扩大图像中地物间的灰度差别，以突出目标信息或改善图像效果，提高解译标志的判别能力，如反差扩展、彩色增强、运算增强、变换增强等，这些传统的图像处理方法在一定程度上满足了应用的需要。近年来发展了一系列的以主成分变换为主的信息提取技术，在岩矿信息提取中发挥了重要的作用。如张满郎（1996）提出修正的直接主成分分析提取铁氧化物信息。OF 变换（Maxium Noise Fraction Transformation）（Kruse，1996，Creen，et al.，1988），NAPC（Noise-adjust Principal Components Transform）（Lee，et al.，1990）、分块主成分变换（Jia，et al.，1999）、基于主成分的对应分析（Carr，et al.，1999），以及基于主成分分析的空间自相关特征提取（Warner，et al.，1997）、子空K投影（Harsanyl，et al.，1997）和高维数据二阶特征分析（Lee，et al.，1993；Haertel，et al.，1999）等，也是基于主成分分析进行信息特征选择与特征提取。同时，根据模式识别的原理，提出并设计出监督分类与非监督分类方法：以及利用决策树进行分类识别（Wrbka，et al.，1999；Friedl，et al.，1999；Hansen et al.，1996），这些技术与方法是建立在图像灰度特征之上，利用数理统计的知识进行地物分类与信息提取。

（2）纹理信息提取

遥感影像的边缘和纹理信息对线环构造的识别具有一定作用，但却似乎无助于岩性的识别。边缘信息提取通常采用滤波算子或锐化的方法进行（Gross，et al.，1998；Varbel，2000）。纹理信息提取通常采用共生矩阵、傅立叶功率谱和纹理谱等方法。

（3）信息融合

多源数据融合研究也非常普及与深入，其技术方法涉及不同的数理知识（Jimen，et al.，1999；Pohl，1998；Robinson，et al.，2000；Price，1999；Gross et al.，1998），比如小波信息融合。应用面涉及非遥感数据（王润生，1992；朱亮璞，1994），如遥感数据与地化数据、物探数据的叠置与融合。这些方法一方面开阔了遥感的应用视野，另一方面也扩展了遥感的应用能力。

总的来说，多光谱遥感岩矿信息提取主要是基于图像灰度特征，即基于岩矿的反射率强度差异，采用一些数学变换方法，增强或突出目标信息，使之易于目视解译。在数据处理中，由于波段有限，未能有效地导入岩矿类别的光谱知识，其结果精度更多地取决于研究人员的经验。

2.高光谱方法研究进展

成像光谱技术是多光谱技术发展的飞跃，它是在对目标对象的空间特征成像的同时，对每个空间象元经过色散或分光形成几十个乃至几百个窄波段以进行连续的光谱覆盖。形成的遥感数据可以用“图像立方体（三维）”来形象描述，其中两维表示空间，另一维表征光谱。这样，在光谱和空间信息综合的三维空间内，可以任意地获得地物“连续”的光谱以及其诊断性特征光谱，从而能够基于地物光谱知识直接识别目标地物，并可进一步地获取定量化的地物信息。在地质应用中，矿物识别和信息处理技术可分为：①基于单个诊断性吸收的特征参数；②基于完全波形特征以及③基于光谱知识模型三大类型。

岩石矿物单个诊断性吸收特征可以用吸收波段位置（λ）、吸收深度（H）、吸收宽度（w），吸收面积（A）、吸收对称性（d）、吸收的数目（n）和排序参数作一完整地表征。根据端元矿物的单个诊断性吸收波形，从成像光谱数据中提取并增强这些参数信息，可直接用于识别岩矿类型。如IHS编码与吸收波段图（Kruse，1988）是利用连续法去除后的光谱图像，定义出波段吸收中心位置图像，波段深度图像以及波段半极值宽度图像，并分别赋予HS I 空间的明度（H）、强度（l）和饱和度（S），然后逆变换到RGB色度空间。从而根据色调差异进行矿物直接识别。在描述岩矿单个诊断性吸收特征参数中，吸收深度是一非常重要的特征指标而受到重视。如相对吸收深度图（RBD image，Relative absorption Band-depthimage）（Crowley，et al.，1989）采用比值运算来增强识别端元的吸收深度，即根据要识别端元的单个诊断性吸收峰的两侧肩部反射率之和，除以其谷中心邻近两侧对应波长的反射率之和的商图像，来表征端元矿物诊断性吸收峰的相对吸收深度。不同端元矿物的RBD图像，除象元本身比值大小代表了端元矿物存在的可能性外，通过进一步地诸如PC变换分析进行特征增强与选择来识别端元矿物。由于吸收峰的非对称性，采用RBD方法难以准确描述其特征。连续插值波段算法（CIBR，continuum interpolated band algorithm）（De Jong，1998）和光谱吸收指数图像（SAI，spectral absorption index image）（王晋年等，1996）与相对吸收深度图方法类似，但引入了对称度因子，使其对吸收特征的描述更为合理。CIBR是利用诊断性光谱吸收谷中心的辐射值，除以左右肩部的辐射值与吸收特征对称度因子之积的和，产生相应的商图像，用以增强不同矿物的诊断性吸收深度，进行矿物识别。SAI方法与CIBR类似，也是对单个吸收波形肩部的特征增加了对称度因子。上述方法类似于常规比值或彩色增强处理。与常规增强处理最大不同之处在于有机地融入端元矿物的光谱特征这一先验知识，针对性、目的性更明确。由于大气辐射对遥感数据中波谱特征的影响、光谱混合形成的光谱漂移和变异对单个波形的影响，使识别结果含有较大的干扰。

成像光谱最大的优势在于利用有限细分的光谱波段，去再现象元对应物的波谱曲线。这样，利用整个光谱曲线进行矿物匹配识别，可以在一定程度上改善单个波形的不确定性影响（如光谱漂移、变异等），提高识别的精度。基于整个波形的识别技术方法是在参考光谱与象元光谱组成的二维空间中，合理地选择测度函数度量标准光谱或实测光谱与图像光谱的相似程度。例如，光谱匹配（SM，Spectral matching）（Baugh，et al.，1998）利用岩矿光谱矢量的欧氏距离测度函数，即求图像象元光谱与参考光谱在光谱空间中的差异大小。距离愈小，表示图像端元光谱或待识别的端元光谱与来自实验室或野外实测的参考光谱之间拟合程度愈高。类似地，相似指数（SI，similarity index algorithm）（Fenstermaker，et al.，1994）是基于欧氏距离侧度，根据已知地物类型的图像象元平均光谱与未知图像象元光谱的波段差值平方和的均值大小来识别地物。以上两种方法比基于单个吸收波形参数识别技术可靠。但往往由于光谱数据分辨率的影响，其光谱的差异不明显，同时又因欧氏距离测度固有的缺陷而难以对地物进行准确分类与识别。光谱角识别方法（SAM，spectral angle mapper）（Ben-Dor，et al.，1994；Crosta，et al.，1998；Drake，et al.，1998：Yuhas，et al.，1992）是在由岩矿光谱组成的多维光谱矢量空间，利用一个岩矿光谱矢量的角度测度函数求解岩矿参考光谱端元矢量（r）与图像象元光谱矢量（t）的相似程度。参考端元光谱既可来自实验室、野外测量，也可来自已知类别的图像象元光谱。根据两者相似程度大小，识别与提取矿化蚀变信息。该方法的难点在于如何合理地选择阈值进行信息分割。不过，从已有应用的角度看，该方法简单易行、比较可靠。交叉相关匹配（Fer-rier，et al.，1999；Varder Meer，et al.，1997）是使用一个相关因子（r.）作为相似性指数，通过逐象元交叉相关匹配进行矿物识别。当参考光谱与检验光谱完全匹配时，其位置m=0；参考光谱向长波方向移动时，其m＜0。反之，m＞0。在RGB空间，分别赋予斜度（skewness），t检验值与相关因子以R，G，B；若在“0”匹配位置，其斜度、t检验值与相关因子（r.）均接近于“1”而显示为白色，从而识别出端元矿物。对于矿物的智能识别，往往也采用完全谱形。例如，Tetracord矿物识别软件是基于UNIX平台，利用光谱数据库中的光谱与图像光谱拟合从而自动进行识别矿物；王润生等（1999）根据矿物的完全波形，利用神经网络进行矿物自动识别。以上方法在具有大量已知地物光谱时适应性强。对图像地物识别更有用。但明显不足是由于实际地物光谱变异、获取数据受观测角以及颗粒大小的影响而造成光谱变化，对于整体光谱特征差别不太大的地物，准确匹配比较困难，造成岩矿识别与分析上的混淆和误差。

基于光谱模型的识别的技术方法是建立在一定的光学、光谱学、结晶学和数学理论之上的信号处理技术方法。它不仅能够克服上述方法存在的缺陷，而且在识别地物类型的同时精确地量化地表物质的组成和其他的物理特性。例如，建立在Hapke光谱双向反射理论基础之上的线性混合光谱分解模型（SMA/SUM）（Adams，et al.，1986；Mustard，et al.，1987；Roberts，et al.，1997；Sabol，et al.，1992；Settle，et al.，1993；Shipman，et al.；1987：Shimabukuro，et al.，1991；Smith，et al.，1985），可以根据不同地物或者不同象元光谱反射率响应的差异，构造光谱线性分解模型。一个象元内并非存在单一类型地物，而更多地由不同类型地物组成。因此，在大多数情况下，象元光谱并非为纯地物光谱的线性混合，而更多地表现为非线性。对于单散射，可作为线性模型分解，多散射则认为非线性混合。由于平均单散射反照率丰度主要依赖于成分含量不同而可以认为是线性混合（Mustard，et al.，1987）。这样，通过单散射反照率（SSA）转换，即可以利用算子W=（3r+6）r/（1 +2r）2，将非线性“线性化”，再进行光谱分解。Tompkins（1996）提出修正的光谱混合分析（MSMA）模型。该模型利用虚拟端元，采用一个阻尼最小二乘算法，根据一定的先验知识，有效地并最终可以选择亚像端元进行光谱分解，提高了SMA实用性。与SMA相比，MSMA最大的不同表现在：①端元以及其丰度均作为未知变量；②对数据组中所有象元同时求解。对于能量约束最小模型（CEM，constrained en-ergy minimization technique）（Farrand，et al.，1997；Farrand，et al.，1996；Resmini，et al.，1997）是在成像光谱图像序列中，运用一个目标区域（或ROI区域，region of insteresting）与象元光谱（ri）相关的权系数wk来描述象元向量的数字值y，从而进行特征选择与分解进行地物识别与信息提取。与混合光谱分解模型一样，该分解结果在一定程度上，不仅代表了识别象元的类型信息，而且有机地表示了其丰度比值。与混合光谱分解模型不同的是，该方法更多地依赖于目标区域的统计特征，但结果更精确。总之，这些方法更多地依赖光谱学知识与数理方法，在实际应用中由于难以确定特征参数或难以准确地描述光谱模型而限制了该类技术方法的应用。不过，由于该类方法在识别地物的同时量化物质组成，因此就其发展趋势而言，随着一系列技术的成熟与光谱学、结晶学等知识的深入发展，识别精度的改善与量化能力的提高，其应用将会越来越广泛。

国内也相继开展了一些成像光谱进行矿物直接识别应用试验，但由于国产传感器的性能尚不够完善，数据信噪比较低。但在定性岩矿识别方面取得了一定的收获。如甘甫平等（2000）利用基于波形特征组合的主成分分析有效地对河北张家口后沟金矿区进行了岩性划分；刘庆生（1999）利用对应分析提取出内蒙古某矿区的含金蚀变。在直接定量矿化识别、识别模型和识别谱系等方面都落后于美国等发达国家，相比还存在一定差距。

总之，岩矿光谱学机理研究、遥感信息提取基础与遥感信息提取方法技术研究，三者之间相辅相成，具有一定的对应关系。

遥感地物光谱应用基础与遥感影像信息提取技术研究随着遥感光谱成像技术的发展而发展，两者研究方向与趋势都主要集中在光谱特征知识与地物物理化学属性的关联以及光谱物理模型两大方面。对地物物化属性与光谱特征的相关性和对光谱物理模型的深入分析与研究可从不同的角度为遥感直接识别矿物、提取地物的分布规律、属性、物化性质以及进行地物深层次信息挖掘等提供理论基础支撑，推动遥感应用技术的发展。遥感地学应用的实用化与产业化是遥感地物光谱应用基础与遥感地物影响信息提取技术研究相互促进的结果。

地物光谱学机理研究、遥感信息提取基础与遥感信息提取方法技术研究的发展将导致三者的结合，并最终综合于遥感应用模型和技术集成中，以便充分利用各自的优势，提高遥感应用能力并增强对地质应用的理解，以及模拟、评估和预测地学发展的规律。

本科论文答辩抽取是当场抽的吗

按照教育部颁布的文件，自2021年1月1日起，每年会对本科毕业论文实行随机抽查，重点抽查对象为本科毕业毕业论文，若抽查发现有抄袭、伪造、代写等学术不端行为，论文作者的学士学位将被取消。我相信会多人对抽检还是有很多疑问的，比如论文抽查是什么？论文抽查所有的论文吗？paperfree论文查重小编给大家讲解。一，什么是论文抽查？ “论文抽样调查”是指教育部为杜绝抄袭、代写等学术不端现象，在上一学年度以随机抽取方式复审授予学士学位的论文。所抽查的论文应包括本地区所有本科层次普通高校及其本科专业，原则上抽查所占比例不低于2％。通过硕士、博士抽样检查其创新科研能力，本科毕业论文抽检主要考察学生的学术素养。二、论文抽查主要检查哪些内容？论文抽查主要检查的内容包括论文选题、逻辑、研究方案和计划、开题报告、学术规范等。文章共分初评和复评两个环节，初评由三位专家来进行，如果有两位专家认为论文不合格，则判定有问题。如果专家认为不合格就可以复评，如果复评不及格将被视为存在问题的论文，如果只有一篇不符合要求的文章，允许学生修改。但经核实，毕业论文确有抄袭、篡改、代写等学术不端行为的，将取消其学位授予，并取消学位证书。

大学毕业论文答辩流程由学术堂整理提供：一、准备工作1、做好PPT内容：每页不超过10行字或一副图，罗列要点，避免大段文字出现。配色：文字清晰、简洁易看。避免多种颜色，过于花哨。图表：适当的插入图表能够吸引观众注意，还能够形象的表达观点。2、练习控制时间一般答辩现场对学生的陈述时间是有限制的。在正式答辩之前要多计时练习几遍自己的陈述，学会控制时间。这样到时会显得你对答辩内容的掌握充分，给答辩老师一个好印象。二、拿好必备材料1、论文纸质版：自己手上有一份，可以没有封面，但是页码要与老师的相符合，方便老师提问时查找对应的页面。2、纸和笔：有些答辩老师的问题较多，或者每个老师分别提问、学生最后整体作答，这需要简单的记录老师的问题，或在回答是做简单的思路笔记。三、自我介绍自我介绍作为答辩的开场白，包括姓名、学号、专业。介绍时要举止大方、态度从容、面带微笑，礼貌得体的介绍自己，争取给答辩小组一个良好的印象。好的开端就意味着成功了一半。四、答辩人陈述收到成效的自我介绍只是这场答辩的开始，接下来的自我陈述才进入正轨。自述的主要内容包括论文标题；课题背景、选择此课题的原因及课题现阶段的发展情况；有关课题的具体内容，其中包括答辩人所持的观点看法、研究过程、实验数据、结果；答辩人在此课题中的研究模块、承担的具体工作、解决方案、研究结果。文章的创新部分；结论、价值和展望；自我评价。五、提问与答辩答辩教师的提问安排在答辩人自述之后，是答辩中相对灵活的环节，有问有答，是一个相互交流的过程。一般为3个问题，采用由浅入深的顺序提问，采取答辩人当场作答的方式。1、调整心态首先要保持自信。克服紧张、不安、焦躁的情绪，自信自己一定可以顺利通过答辩。注意自身修养，有礼有节。无论是听答辩教师提出问题，还是回答问题都要做到礼貌应对。同时要有谦虚的心态，大方承认老师的指出的错误。2、认真作答听明白题意，抓住问题的主旨，弄清答辩教师出题的目的和意图，充分理解问题的根本所在，再作答，以免答非所问的现象。若对某一个问题确实没有搞清楚，要谦虚向教师请教。尽量争取教师的提示，巧妙应对。用积极的态度面对遇到的困难，努力思考做答，不应自暴自弃。六、总结上述程序一一完毕，代表答辩也即将结束。答辩人最后纵观答辩全过程，做总结陈述，包括两方面的总结：毕业设计和论文写作的体会；参加答辩的收获。答辩教师也会对答辩人的表现做出点评：成绩、不足、建议。七、学术致谢感谢在毕业设计论文方面给予帮助的人们并且要礼貌地感谢答辩教师。

在上一学年度以随机抽取方式复审授予学士学位的论文。所抽查的论文应包括本地区所有本科层次普通高校及其本科专业，原则上抽查所占比例不低于2％。通过硕士、博士抽样检查其创新科研能力，本科毕业论文抽检主要考察学生的学术素养。

论文抽查主要检查的内容包括论文选题、逻辑、研究方案和计划、开题报告、学术规范等。经核实，毕业论文确有抄袭、篡改、代写等学术不端行为的，将取消其学位授予，并取消学位证书。

论文简介：

论文，古典文学中意为交谈辞章或交流思想，现多指进行各个学术领域的研究和描述学术研究成果的文章。

论文一般由题名、作者、摘要、关键词、正文、参考文献和附录等部分组成。它既是探讨问题进行学术研究的一种手段，又是描述学术研究成果进行学术交流的一种工具。

我之前了解过本科毕业论文答辩流程：1、自我介绍：自我介绍作为答辩的开场白，包括姓名、学号、专业。介绍时要举止大方、态度从容、面带微笑，礼貌得体的介绍自己，争取给答辩小组一个良好的印象。好的开端就意味着成功了一半。2、答辩人陈述：收到成效的自我介绍只是这场答辩的开始，接下来的自我陈述才进入正轨。自述的主要内容包括论文标题；课题背景、选择此课题的原因及课题现阶段的。发展情况；有关课题的具体内容，其中包括答辩人所持的观点看法、研究过程、实验数据、结果；答辩人在此课题中的研究模块、承担的具体工作、解决方案、研究结果。文章的创新部分；结论、价值和展望；自我评价。3、提问与答辩：答辩教师的提问安排在答辩人自述之后，是答辩中相对灵活的环节，有问有答，是一个相互交流的过程。一般为3个问题，采用由浅入深的顺序提问，采取答辩人当场作答的方式。PS：上述程序一一完毕，代表答辩也即将结束。答辩人最后纵观答辩全过程，做总结陈述，包括两方面的总结：毕业设计和论文写作的体会；参加答辩的收获。答辩教师也会对答辩人的表现做出点评：成绩、不足、建议。毕业论文答辩是一种有组织、有准备、有计划、有鉴定的比较正规的审查论文的重要形式。可以按以上的内容准备，但是也可以去专业论文网查查，看看最新有没有改变，推荐用学客行论文网，涵盖内容广泛，查找资料很快速，毕竟专业的论文网站提供的信息更加全面完整。

索引序列
文本信息抽取研究的论文
本科毕业论文抽检信息平台
信息存取系统检索机制研究论文
遥感信息提取分类方法研究论文
本科论文答辩抽取是当场抽的吗
返回顶部

文本信息抽取研究的论文