识别技术国外研究现状论文

2个回答默认排序

默认排序

按时间排序

聪明糊涂心yy

已采纳

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

语音识别技术概述

作者：刘钰马艳丽董蓓蓓

摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前，语音识别方面的困难主要表现在：

(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献：

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

169 评论 1小时前发布

木秀于森林

1研究现状及存在的问题水果实时分级系统主要功能是水果外部品质和内部品质的自动检测。水果的外部品质检测的项目有大小、形状、颜色、表面缺陷等，内部品质无损检测的项目为水果的硬度、糖含量、酸度、口味及某些内部缺陷等。1.1水果外部品质的自动检测水果的尺寸和颜色检测技术已比较成熟，且在国外已经实现自动化检测，在国内也有按重量或尺寸分级的系统。但果面的缺陷检测却一直成为水果实时分级的障碍。果面缺陷检测的技术比较复杂，目前存在以下几方面难题。1.1.1对水果整个表面进行实时视觉检测比较困难在水果分选生产线上，输送机构输送水果并把水果整个表面呈现给摄像机，这是水果实时分级系统比较关键的组成部分，因为当水果通过时，要求视觉系统能快速检查每个水果的全部果面，即使很小的缺陷面积，也会使得水果级别发生很大变化。同时，设计的视觉分级系统必须满足高生产率的要求。在这方面，国外学者（Growe,1996,Tao,1996)［1，2］采用滚子输送带使水果一边移动一边自身转动，从而使安装在输送带上方的摄像机能采集到水果的多个面的图像，达到全表面检测的目的。但由于水果大小和形状不规则，造成水果旋转速度不一致且难以保证按同一轴线旋转。此外，水果旋转两端的表面部分摄像机无法采集到，因此，分级误差较大。1.1.2快速而准确地测定水果表面的各种缺陷且与梗、萼凹陷区正确区分比较困难Miller等(1991)［3］对桃子的分选试验表明：因不能正确区分水果表面的缺陷和梗、萼凹陷区，由此产生的分级误差为25％左右。Rehkugler等（1986）［4］利用机械定向机构使苹果梗、萼处于垂直方向并绕梗萼轴旋转，CCD线扫描摄像机可扫描苹果的整个表面且形成一幅图像，该方法的特点是由机械定向机构定位水果梗、萼区，摄像机对此区不需要再检查。但因为受定向机构速度的限制，还达不到实时分级的速度，试验结果为每分钟选30个苹果。Yang(1996)［5］利用结构光图像与散射光图像相结合来区分梗、萼区和缺陷区，综合两方面图像处理的结果，共抽取16个特征参数，再利用BP神经网络区分苹果的梗、萼区和缺陷区，分辨精度为95％，但还需要进一步把试验结果应用于实际水果分选生产线中。Growe等（1996）［1］采取在780 nm附近带域内，用结构光由一黑白摄像机进行水果表面的凹陷度检测；在750 nm带域内的散射光照射下，由一黑白摄像机进行水果表面的可疑缺陷区检测。水果的输送旋转装置及摄像机布置如图1a所示，采用的双锥滚筒输送带可使水果一方面沿水平方向作平移运动，另一方面又绕自身水平轴作旋转运动。两个黑白CCD摄像机用来采集750 nm附近的散射光图像和780 nm附近的结构光图像，水果旋转一周摄取两次图像。两个黑白摄像机采集的图像经过设计的接口电路后，被合成为一幅黑白图像，合成过程如图1b所示。图像的处理由流水线图像处理系统完成。试验结果表明：每个水果采集两幅图像时，缺陷检测的速度可达5个/s，但误差较大，如对于苹果，碰伤检测的准确率仅为51％。试验表明，要想得到较高的检测精度，每个水果应采集5幅以上的图像，结构光至少6条以上。此外，由于水果尺寸不同所造成各个水果旋转速度的不一致，也是产生测量误差的原因。徐娟（1997）［6］及Nakano(1997)［7］利用人工神经网络法对缺陷区和梗萼区进行区分，试验表明神经网络的区分准确率较低。在果面各种缺陷的快速检测方面，Throop(1997)［8］等人研究了多光谱测量技术，对10个品种的苹果的22种缺陷，在460～1 030 nm光谱范围内，每隔10 nm试验测定了它们的反射光谱特性，其中对3种苹果同一种缺陷测量的结果如图2所示。图中纵坐标的马氏距离反映了水果缺陷区与正常区反射强度的差别程度，距离越大，两者差别越大。由图中曲线可看出：在中心为540 nm、740 nm、1 030 nm三波段附近，3种苹果同一缺陷与正常区的反射强度的差别表现为最大或最小值，最后通过对3个波段的图像进行简单的减法和阈值处理，即可得到检测的缺陷，下一步应考虑实际应用的实现。(a)(b)图1图像采集布置图与图像合成示意图(a)输送装置及摄像机布置(b) 图像合成示意图图23种苹果同一缺陷在460～1 030 nm范围内与正常区反射强度的差别情况1.1.3球形水果表面引起光照强度在投影面内呈曲面分布，以及二维图像上的透视区域与水果实际表面存在的畸变，给图像的缺陷检测带来困难和造成误差Tao(1996)［2］提出的球形变换法很好地解决了第一个问题。基本思想如图3所示：带缺陷的原始物体图像（OOI）与该物体反表面无缺陷的图像(IOI)相加得到变换后的物体图像（TOI），此图像具有平面物体图像的性质，而缺陷区低于该平面，然后经过简单阈值处理即可得缺陷区。何东健（1997）［9］提出了缺陷透视图像面积发生畸变的校正方法，但对复杂形状的缺陷区进行校正，还存在一定的困难。Nakano(1997)［7］利用一旋转平台使水果旋转，每旋转18°CCD摄像机采集一幅图像，苹果旋转一周可得20幅图像，为消除苹果球面面积的畸变，每幅图像只保留中间13 cm宽度的幅面，再全部合成一幅苹果整个表面的展开图像，此法非常有效，但在分选生产线上实现比较困难。图3球形变换方法1.1.4传统的图像处理及模式识别算法的速度不适合实时分选线的要求国外一般采用高速图像处理硬件与简单有效的图像处理软件相结合的途径，来实现水果的实时分级。如Yang(1996)［5］利用的是Transputer系统、结构光法和洪水算法；Growe等(1996)［1］研制的系统，图像的大部分工作由流水线图像处理硬件系统完成；Tao(1996)［2］采用的是专用Merlin图像处理系统和简单有效的球形变换法，研制的苹果分选系统已应用到水果分选生产线上，其分选速度可达3 165个/min。国内研究者（刘禾，1998，徐娟，1997，杨秀坤，1997，何东健，1997）［6，9～11］大多利用一般的微机和图像采集卡，开发了一些图像处理和模式识别的新算法，如把人工神经网络、模糊理论、遗传算法、图像形态学、分形理论、小波理论及人工智能理论用于图像特征的抽取和识别。但由于图像处理的硬件速度太低，故只能限于静态水果图像分选的算法研究。此外，水果分级的算法应具备人工分级的一些优良性能，如学习与记忆功能，因为目前的一些分级算法的训练样本都比较少，而要分级的水果品种多变且量大。1.2水果内部品质无损检测反映水果内部品质的主要指标有硬度、糖含量、酸度、口味及内部缺陷等。目前国内外研究的主要方法和存在的问题如下。1.2.1水果的硬度检测水果的硬度可间接反映水果的成熟度、运输中的抗损坏性、储藏期等。目前用于水果硬度检测的方法主要有变形法和声学法。变形法就是在一定时间内给水果施加一定的动态力或冲击力，然后根据测得的变形量确定水果的硬度。如Schmilovitch等（1995）［12］研制成功了枣子硬度自动检测系统，其原理是把枣子放在两平板之间，在上面板施加5～8 N的动态力，根据所测变形量的大小把枣子分成4个硬度等级。Delwiche(1991)［13］利用冲击法研制了苹果硬度自动检测系统，发现冲击力会造成苹果表面的轻微损伤。变形法只能测量水果表面的局部硬度，实际上，水果表面硬度变化较大，故限制了变形法的应用。声学法包括声波脉冲响应法和超声波法，声波脉冲响应法（20～1 500 Hz）就是利用一麦克风测量受轻微敲击水果的声波强度，由此确定水果的硬度。Armstrong等（1993）［14］试验研究了所测声波强度与水果硬度的关系，发现二者有很好的相关关系。此法的优点是简单、无损，且能反映水果的整体硬度，缺点是必须注意周围噪声的绝缘及机械振动的消除，此外水果形状也影响测量精度。超声波(＞20 000 Hz)法是根据超声波在水果等介质中传播时，能量衰减系数的大小来确定水果硬度。但由于水果内部含有较多气隙且各向异性，故超声波很难穿透整个水果。1.2.2糖含量、酸度、口味的自动检测糖含量、酸度比较有潜力的检测方法是近红外法（NIR）和磁共振法（MR）。近红外法又分穿透法、反射法和部分穿透法，部分穿透法原理如图4所示。穿透法对水果不适应，反射法一般用于水果表面特征的检测，因此常用的方法是部分穿透法。由图4可看出，在部分穿透法中，光线经过的路径比穿透法短，且入射光线与接收器有一夹角，此夹角的确定对测量起关键作用，此外二者之间必须加一隔板。884 nm和834 nm测得量的比值已用于桃子、苹果（Slaughter ，1995）［15］糖含量的自动测定。Slaughter等（1996）［16］对西红柿，在400～1 100 nm的光谱范围内进行部分穿透性测量试验，结果表明：800～1 000 nm范围的信息对糖含量的确定最有用，测得的相关系数r＝0.92, 但酸度测量比较困难。Mizrach(1997)［17］利用超声波法试验研究了超声波衰减系数和芒果硬度、糖含量、酸度的关系，但其超声波测量探头必须与果面接触，故限制了在线的应用。因此，利用近红外多光谱技术测定水果内部糖含量及其他成分是很有前途的，为达到实时应用的目的，应进一步确定最合适的一两个波段并与计算机视觉技术结合。磁共振及磁共振成像（MRI）技术也是测定水果内部成分的有效方法，其依据是物质内部的某些原子核（H、C、P等）在外部磁场作用下，可与射频区域的电磁波辐射相互作用。Chen等(1996)［18］利用此法对鳄梨的成熟度和鲜杏梅的糖含量进行了一些研究，得到了较好的结果。此法的主要缺点是设备昂贵。图4部分穿透法与水果的口味相关的化学成分主要是可挥发性芳香化合物，当水果成熟时，就会在周围空气中散发这种挥发性芳香气体。Benady等（1995）［19］研制的电子传感器可以测量这种气体的浓度。1.2.3水果内部缺陷的检测西瓜的内部空心用超声波检测已比较成熟。其他缺陷的检测，目前国外正研究利用X射线法、磁共振和磁共振成像技术等方法测量，因成本高及安全性等问题，故很难在农业中推广应用。2研究的途径及方向探讨水果实时分级系统的进一步研究应从两方面入手，一方面要加快水果外部品质的计算机视觉实时分选技术的研究；另一方面也要进行水果内部品质的无损检测技术的研究。因为水果分级的主要目的是选出高质量的水果，故水果内外品质的检测技术都十分重要。在水果的外部品质检测方面，应进行多种技术集成的应用研究。（1）对于水果整个表面机器视觉快速检测的问题，可采用机械与光学技术相结合，设计合理的传送机构，既保证水果在传送带上比较平稳地移动，又可由视觉系统快速检测到水果的全部表面。尽量减小因水果不规则运动造成的分级误差、损伤及图像的模糊。（2）对于果梗、萼区与缺陷的检测与视觉区分方面，应采用多光谱技术与机器视觉技术相结合，研究水果图像上可疑缺陷区的关键特征参数的抽取方法，得到简单、有效、快速的图像处理和识别方法。（3）在球形果面造成的光反射强度呈曲面分布及曲面成像面积的畸变问题，可从光照设计、图像合成及软件补偿3方面综合考虑。光照的充分设计可解决第一个问题；多幅图像的有效合成，可解决畸变问题。我们通过试验表明：一个水果至少应采集5幅图像，然后再合成为一幅，可基本保证水果整个表面上缺陷的有效检测，以避免畸变误差。软件补偿的方法必须简单而有效，以适合高速的要求。（4）在实时系统的图像处理器硬件设计方面，首先应采取先进的并行CPU芯片，如TMS320C80等；其次处理板的设计应与视觉系统结合起来考虑，如采集多路视觉信号的合成问题，机械机构与视觉系统的同步电路设计等。当然，也可引进国外比较成熟的高速图像处理主板，而其他技术可由国内自行开发，这样可以加快国内水果实时分级系统实现自动化的步伐。（5）在图像处理和识别的软件设计方面，应把传统方法与现代新方法（神经网络，并行算法，遗传算法，模糊技术，人工智能，图像形态学，分形学，小波变换等）结合起来，改变传统图像信息的超数据量表达方式，寻求图像表达与解释的新方法，力求图像处理和识别算法的快速性、有效性及鲁棒性。在水果内部品质检测方面，声学振动法是实现硬度自动检测的有效方法，但应设法消除影响测量精度的因素，并进行在生产线上的应用开发；近红外局部投射法和磁共振法是水果糖含量、酸度等内部成分自动检测的有效方法。在国内，近红外局部投射法更有应用前景，应进一步研究其通用性、稳定性和实用性；内部缺陷的无损检测应进一步研究新原理和新方法，应采取自己开发和从国外引进相结合的方式。此外，应进行多种传感器测量信息集成技术的研究，这是水果内外品质实现实时自动检测与分级的有效途径。3结语利用各种现代技术的高度集成，在水果分选生产线上同时完成水果内外品质的检测与分级是将来进一步研究的方向和目的。随着科学技术的飞速发展，在我国近期有望实现农产品品质的自动化检测与分级。

171 评论 3小时前发布

识别技术国外研究现状论文

2个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序