语音识别论文参考文献

3个回答默认排序

默认排序

按时间排序

yvonnejiang8

已采纳

1。 Frosini A, Gori M, Priami P (1996) A neural network-based model弗罗西尼甲，普里亚米P（下1996）哥里的神经网络的M -基于模型for paper currency recognition and verification.为纸币识别和验证。 IEEE Trans Neural电机及电子学工程师联合会跨神经Network 7:1482-1490网络7:1482-14902. 2。 Kosaka T, Taketani N, Omatu S (1999) Classification of Italian小坂吨，武谷ñ，Omatu工作主任（1999年）意大利分类bills by a competitive neural network.法案通过有竞争力的神经网络。 Trans Inst Elec Eng Jpn中国科学院利安达反英Jpn119-C:948-954 119 - ç :948 - 9543. 3。 Fukunaga K (1972) Introduction to statistical pattern recognition.福永度（1972年）介绍统计模式识别。Academic, New York学术，纽约4. 4。 Tipping ME, Bishop CM (1999) Probabilistic principal component小费我，主教厘米（1999年）的主要组成部分概率analysis.分析。 J Roy Stat Soc B 61:611-622 ĵ罗伊统计芯片乙61:611-6225. 5。 Haykin S (1999) Neural networks. Haykin工作主任（1999年）神经网络。 Prentice Hall, New Jersey普伦蒂斯大厅，新泽西6. 6。 Kohonen T (1995) Self-organization maps.基于Kohonen T（下1995）自组织地图。 Springer, Berlin施普林格，柏林Heidelberg New York海德堡纽约7. 7。 Rabiner LR (1989) A tutorial on hidden Markov models and拉比娜的LR（1989）关于隐马尔可夫模型和教程selected applications in speech recognition.在语音识别选定的应用程序。 Proceedings of IEEE诉讼的IEEE77:257-286 77:257-2868. 8。 Kohavi R (1995) A study of cross-validation and bootstrap for accuracy Kohavi住宅（1995年）的交叉研究，验证和引导的准确性estimation and model selection.估计和模型选择。 Proceedings of the 14th International程序的第14届国际Joint Conference on Artificial Intelligence IJCAI,联席会议人工智能IJCAI，Montreal, Canada, pp 1137-11加拿大蒙特利尔，第1137至1111年

262 评论 2小时前发布

洋葱吵大肠

计算机人工智慧是一种发展前景较广,潜力较大的计算机发展形式。下面是我为大家整理的，供大家参考。

摘要：阐述了人工智慧的核心问题及启发式搜寻函式的基本概念，介绍了4种经典问题启发式搜寻函式的选择及其研究中遇到的难题，并从中求解来探讨解决问题的思路。

关键词：人工智慧;问题求解;启发式搜寻函式

中图分类号：TP18文献标识码：A文章编号：1009-3044***2008***08-10ppp-0c

人工智慧问题广义地说，都可以看作是一个问题求解过程，因此问题求解是人工智慧的核心问题，它通常是通过在某个可能的解答空间中寻找一个解来进行的。在问题求解过程中，人们所面临的大多数现实问题往往没有确定性的演算法，通常需要用搜索演算法来解决。目标和达到目标的一组方法称为问题，搜寻就是研究这些方法能够做什么的过程。问题求解一般需要考虑两个基本问题：首先是使用合适的状态空间表示问题，其次是测试该状态空间中目标状态是否出现。

1 什么是启发式搜寻函式

在人工智慧中有很大一类问题的求解技术依赖于搜寻。启发式方法就是采用有利于问题自身特征资讯来引导搜寻过程的方法，在学生学习过程中启发式函式的选取至关重要，决定整个演算法的效率与成败。启发式搜寻通常用于两种不同型别的问题：***1***前向推力和***2***反向推理。前向推理一般用于状态空间的搜寻。在前向推理中，推理是从预定义的初始状态出发向目标状态反向方向执行;反向推理一般用于问题归约中。在反向推理中，推理是从给定的目标状态向初始状态执行。

用来评估节点重要性的函式称为评估函式。评估函式f***x***定义为从初始节点S0出发，约束地经过节点x到达目标节点Sg的所有路径中最小路径代价的估计值。其一般形式为：

其中，g***x***表示从初始节点S0到节点x的实际代价;h***x***表示从x到目标节点Sg的最优路径的评估代价，它体现了问题的启发式资讯，其形式要根据问题的特征确定，h***x***称为启发式函式。因此，启发式方法把问题状态的描述转换成了对问题解决程度的描述，这一程度用评估函式的值来表示。

2 滑动积木游戏启发式搜寻函式

滑动积木块游戏的棋盘结构及某一种将牌的初始排列结构如下：

其中B表示黑色将牌，W表示白色将牌，E表示空格。游戏的规定走法是：

***1***任意一个将牌可以移入相邻的空格，规定其耗散值为1;

***2***任意一个将牌可相隔1个或2个其他的将牌跳入空格，规定其耗散值等于跳过将牌的数目;游戏要达到的目标是使所有白将牌都处在黑将牌的左边***左边有无空格均可***。对这个问题，定义一个启发函式h***n***，并给出利用这个启发函式用演算法A求解时所产生的搜寻树。可定义h为：h=B右边的W的数目

很多知识对求解问题有好处，这些知识并不一定要写成启发函式的形式，很多情况下，也不一定能清晰的写成一个函式的形式。由题意，在目标状态下，一个扇区的数字之和等于12，一个相对扇区的数字之和等于24，而一个阴影扇区或者非阴影扇区的数字之和为48。

为此，我们可以将目标进行分解，首先满足阴影扇区的数字之和为48。为了这个目标我们可以通过每次转动圆盘45o实现。在第一个目标被满足的情况下，我们再考虑第二个目标：每一个相对扇区的数字和为24。在实现这个目标的过程中，我们希望不破坏第一个目标。为此我们采用转动90o的方式实现，这样即可以调整相对扇区的数字和，又不破坏第一个目标。在第二个目标实现之后，我们就可以实现最终目标：扇区内的数字和为12。同样我们希望在实现这个目标的时候，不破坏前两个目标。为此我们采用转动180o的方式实现。这样同样是即可以保证前两个目标不被破坏，又可以实现第三个目标。

经过这样的分析以后，我们发现该问题就清晰多了。当然，是否每一个第一、第二个目标的实现，都能够实现第三个目标呢?有可能不一定。在这种情况下，就需要在发现第三个目标不能实现时，重新试探其他的第一、第二个目标。

4 传教士野人问题启发式搜寻函式

传教士野人问题，n个传教士和n个野人从河的一边摆渡到河的另一边，为安全起见，任何时候传教士的数目不能小于野人的数目，渡船每次渡k个人， N=5，k≤3的M-C问题，找到相应的启发函式。定义h1=M+C-2B，其中M，C分别是在河的左岸的传教士人数和野人人数。B=1表示船在左岸，B=0表示船在右岸。也可以定义h2=M+C，h1是满足A*条件的，而h2不满足。

要说明h***n***=M+C不满足A*条件是很容易的，只需要给出一个反例就可以了。比如状态***1, 1, 1***，h***n***=M+C=1+1=2，而实际上只要一次摆渡就可以达到目标状态，其最优路径的耗散值为1。所以不满足A*的条件。

下面我们来证明h***n***=M+C-2B是满足A*条件的。

我们分两种情况考虑。先考虑船在左岸的情况。如果不考虑限制条件，也就是说，船一次可以将三人从左岸运到右岸，然后再有一个人将船送回来。这样，船一个来回可以运过河2人，而船仍然在左岸。而最后剩下的三个人，则可以一次将他们全部从左岸运到右岸。所以，在不考虑限制条件的情况下，也至少需要摆渡次。其中分子上的"-3"表示剩下三个留待最后一次运过去。除以"2"是因为一个来回可以运过去2人，需要个来回，而"来回"数不能是小数，需要向上取整，这个用符号表示。而乘以"2"是因为一个来回相当于两次摆

渡，所以要乘以2。而最后的"+1"，则表示将剩下的3个运过去，需要一次摆渡。

再考虑船在右岸的情况。同样不考虑限制条件。船在右岸，需要一个人将船运到左岸。因此对于状态***M，C，0***来说，其所需要的最少摆渡数，相当于船在左岸时状态***M+1，C，1***或***M，C+1，1***所需要的最少摆渡数，再加上第一次将船从右岸送到左岸的一次摆渡数。因此所需要的最少摆渡数为：***M+C+1***-2+1 。其中***M+C+1***的"+1"表示送船回到左岸的那个人，而最后边的"+1"，表示送船到左岸时的一次摆渡。

综合船在左岸和船在右岸两种情况下，所需要的最少摆渡次数用一个式子表示为：M+C-2B。其中B=1表示船在左岸，B=0表示船在右岸。由于该摆渡次数是在不考虑限制条件下，推出的最少所需要的摆渡次数。因此，当有限制条件时，最优的摆渡次数只能大于等于该摆渡次数。所以该启发函式h是满足A*条件的。

5 结束语

总之，计算机人工智慧启发式搜寻函式选取的方法比较多，试图找出问题中选取函式的相似的方法，从文中可知还没有那一个函式可以处于绝对的地位，可以适用于所有环境。如何将各种选取启发式搜寻函式的思路结合起来，寻找各个问题选取函式的特点规律，在这个方面还是有很多的理论和实践值得深入研究。

参考文献：

[1]史忠植.高阶人工智慧***第二版***[M].科学出版社,2006.

[2]廉师友.人工智慧技术导论***第二版***[M].西安电子科技大学出版社,2002.

[3]陈群秀.人工智慧***远端教育研究生课程***[EB/OL].

[4]Visual Prolog语言简介[EB/OL].

[5]人工智慧语言[EB/OL].第十四章人工智慧语言

摘要：近年来，随着资讯科技以及计算机技术的不断发展，人工智慧在计算机中的应用也随之加深，其被广泛应用于计算机的各个领域。本文针对计算机在人工智慧中的应用进行研究，阐述了人工智慧的理论概念，分析当前其应用于人工智慧所存在的问题，并介绍人工智慧在部分领域中的应用。

关键词：计算机;人工智慧;应用研究

中图分类号：文献标识码：A文章编号：1007-9599 ***2011*** 19-0000-01

Applied Research of puter on Artificial Intelligence

Han Xiaoying

***Jiujiang University,Jiujiang332005,China***

Abstract:In recent years,as information technology and puter technology continues to evolve,the application of artificial intelligence in the puter also will deepen thEir puters are widely used in various this paper,puter applications in artificial intelligence research,explained the concept of artificial intelligence theory to *** yze the current applied to the problems of artificial intelligence,and describes the field of artificial intelligence in some applications.

intelligence;Applied research

一、前言

人工智慧又称机器智慧，来自于1956年的Dartmouth学会，在这学会上人们最初提出了“人工智慧”这一词。人工智慧作为一门综合性的学科，其是在电脑科学、资讯理论、心理学、神经生理学以及语言学等多种学科的互相渗透下发展而成。在计算机的应用系统方面，人工智慧是专门研究如何制造智慧系统或智慧机器来模仿人类进行智慧活动的能力，从而延伸人们的科学化智慧。人工智慧是一门富有挑战性的科学，从事这项工作的人必须懂得计算机知识、心理学与哲学。人工智慧是处于思维科学的技术应用层次，是其应用分支之一。数学常被认为是多种学科的基础科学，数学也进入语言及思维领域，人工智慧学科须借用数学工具。数学在标准逻辑及模糊数学等范围发挥作用，其进入人工智慧学科，两者将互相促进且快速发展。

二、人工智慧应用于计算机中存在的问题

***一***计算机语言理解的弱点。当前，计算机尚未能确切的理解语言的复杂性。然而，正处于初步研制阶段的计算机语言翻译器，对于演算法上的规范句子，已能显示出极高的造句能力及理解能力。但其在理解句子意思上，尚未获得明显成就。我们所获取的资讯多来自于上下文的关系以及自身掌握的知识。人们在日常生活中的个人见解、社会见解以及文化见解给句子附加的意义带来很大影响。

***二***模式识别的疑惑。采用计算机进行研究及开展模式识别，在一定程度上虽取得良好效果，有些已作为产品进行实际应用，但其理论以及方法和人的感官识别机制决然不同。人的形象思维能力以及识别手段，即使是计算机中最先进的识别系统也无法达到。此外，在现实社会中，生活作为一项结构宽松的任务，普通的家畜均能轻易对付，但机器却无法做到，这并不意味着其永久不会，而是暂时的。

三、人工智慧在部分领域中的应用

伴随着AI技术的快速发展，当今时代的各种资讯科技发展均与人工智慧技术密切相关，这意味着人工智慧已广泛应用于计算机的各个领域，以下是笔者对于人工智慧应用于计算机的部分领域进行阐述。具体情况如下。

***一***人工智慧进行符号计算。科学计算作为计算机的一种重要用途，可分为两大类别。第一是纯数值的计算，如求函式值。其次是符号的计算，亦称代数运算，是一种智慧的快速的计算，处理的内容均为符号。符号可代表实数、整数、复数以及有理数，或者代表 *** 、函式以及多项式等。随着人工智慧的不断发展以及计算机的逐渐普及，多种功能的计算机代数系统软体相继出现，如Maple或Mathematic。由于这些软体均用C语言写成，因此，其可在多数的计算机上使用。

***二***人工智慧用于模式识别。模式识别即计算机通过数学的技术方法对模式的判读及自动处理进行研究。计算机模式识别的实现，是研发智慧机器的突破点，其使人类深度的认识自身智慧。其识别特点为准确、快速以及高效。计算机的模式识别过程相似于人类的学习过程，如语音识别。语音识别即为使计算机听懂人说

的话而进行自动翻译，如七国语言的口语自动翻译系统。该系统的实现使人们出国时在购买机票、预定旅馆及兑换外币等方面，只需通过国际网际网路及电话网路，即可用电话或手机与“老外”进行对话。

***三***人工智慧计算机网路安全中的应用。当前，在计算机的网路安全管理中常见的技术主要有入侵检测技术以及防火墙技术。防火墙作为计算机网路安全的装置之一，其在计算机的网路安全管理方面发挥重要作用。以往的防火墙尚未有检测加密Web流量的功能，原因在于其未能见到加密的SSL流中的资料，无法快速的获取SSL流中的资料且未能对其进行解密。因而，以往的防火墙无法有效的阻止应用程式的攻击。此外，一般的应用程式进行加密后，可轻易的躲避以往防火墙的检测。因此，由于以往的防火墙无法对应用资料流进行完整的监控，使其难以预防新型攻击。新型的防火墙是通过利用统计、概率以及决策的智慧方法以识别资料，达到访问受到许可权的目地。然而此方法大多数是从人工智慧的学科中采取，因此，被命名为“智慧防火墙”。

***四***人工智慧应用于计算机网路系统的故障诊断。人工神经网路作为一种资讯处理系统，是通过人类的认知过程以及模拟人脑的组织结构而成。1943年时，人工神经网路首次被人提出并得到快速发展，其成为了人工智慧技术的另一个分支。人工神经网路通过自身的优点，如联想记忆、自适应以及并列分布处理等，在智慧故障诊断中受到广泛关注，并且发挥极大的潜力，为智慧故障诊断的探索开辟新的道路。人工神经网路的诊断方法异于专家系统的诊断方法，其通过现场众多的标准样本进行学习及训练，加强调整人工神经网路中的阀值与连线权，使从中获取的知识隐藏分布于整个网路，以达到人工神经网路的模式记忆目的。因此，人工神经网路具备较强的知识捕捉能力，能有效处理异常资料，弥补专家系统方法的缺陷。

四、结束语

总而言之，人工智慧作为计算机技术的潮流，其研究的理论及发现决定了计算机技术的发展前景。现今，多数人工智慧的研究成果已渗入到人们的日常生活。因此，我们应加强人工智慧技术的研究及开发，只有对其应用于各领域中存在的问题进行全面分析，并对此采取相应措施，使其顺利发展。人工智慧技术的发展将给人们的生活、学习以及工作带来极大的影响。

参考文献：

[1]杨英.智慧型计算机辅助教学系统的实现与研究[J].电脑知识与技术,2009,9

[2]毛毅.人工智慧研究热点及其发展方向[J].技术与市场,2008,3

[3]李德毅.网路时代人工智慧研究与发展[J].智慧系统学报,2009,1

[4]陈步英,冯红.人工智慧的应用研究[J].邢台职业技术学院学报,2008,1

328 评论 5小时前发布

张大羊羊

高性能汉语数码语音识别算法李虎生刘加刘润生摘要：提出了一个高性能的汉语数码语音识别(MDSR)系统。 MDSR系统使用Mel频标倒谱系数(MFCC)作为主要的语音特征参数，同时提取共振峰轨迹和鼻音特征以区分一些易混语音对，并提出一个基于语音特征的实时端点检测算法，以减少系统资源需求，提高抗干扰能力。采用了两级识别框架来提高语音的区分能力，其中第一级识别用于确定识别候选结果，第二级识别用于区分易混语音对。由于采用了以上改进， MDSR系统识别率达到了.关键词：汉语; 数码语音识别分类号：TN 文献标识码：A文章编号：1000-0054(2000)01-0032-03High performance digit mandarinspeech recognitionLI Husheng LIU Jia LIU Runsheng(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)Abstract：High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to reduce the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of words：mandarin；digit speech recognition▲ 汉语数码语音识别 (mandarin digit speech recognition, MDSR) 是语音识别领域中一个具有广泛应用背景的分支，它的任务是识别“0”到“9”等10个非特定人汉语数码语音，在电话语音拨号、工业监控、家电遥控等领域有着极大的应用价值〔1〕。但与英语数码语音识别相比， MDSR的性能尚未达到成熟应用水平，这是因为 1) 汉语数码语音的混淆程度较高； 2) 汉语是一个多方言语种，说话人会带有或多或少的地方口音； 3) 在许多应用背景中，MDSR需要在运算和存储资源都较为紧张的数字信号处理器(digital signal processor, DSP)系统上实现，这为MDSR算法的设计带来了很大的限制。由于以上原因，MDSR是一项相当困难的任务。针对汉语数码语音识别提出了一系列高性能的算法，使MDSR识别率达到了。由这些算法构成的识别系统框图如图1所示。 MDSR系统〔1〕提取的语音特征参数包括用于识别的参数和用于端点检测的参数。图1 MDSR系统框图1 语音前端处理语音前端处理包括语音特征提取和端点检测两部分。语音特征提取基本识别参数目前常用的语音识别参数有基于线性预测编码(LPC)的线性预测倒谱系数(LPCC)和基于Mel频标的倒谱系数(MFCC)〔2〕。实验证明，采用MFCC参数时系统识别率高于采用LPCC参数。因此本文的基本识别参数采用MFCC参数及一阶差分MFCC参数。共振峰轨迹在MDSR中，易混淆语音“2”和“8”可以由其第2，3共振峰的变化趋势区分开〔3〕。因此可将共振峰轨迹作为识别参数之一，并选用峰值选取算法来提取共振峰轨迹〔3〕。鼻音特征参数汉语数码语音中，“0”的元音具有鼻音的特征，而“0”容易与具有非鼻化元音的“6”混淆，因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括〔4〕： 1) 鼻音在频谱低端(约左右)有1个较强的共振峰。 2) 鼻音在中频段(约～)的能量分布较为均匀，没有明显的峰或谷。采用以下2个参数表征鼻音的特征： 1) 低频能量比： (1)其中fn为鼻音低频共振峰频率， B为鼻音低频共振峰带宽。Fk为对语音作快速Fourior变换(FFT)后第k个频率点的能量，〔f1，f2〕则为语音“6”能量集中的频带。 2) 频谱质心： (2) 其中〔fL,fH〕为～的中频段。由于MDSR系统采用的基本识别参数为MFCC参数，其计算过程中需要作FFT，所以低频能量比和频谱质心两个参数可以顺带算出，不会影响特征提取的实时完成。端点检测本文提出了基于语音特征的实时端点检测算法(feature-based real-time endpoint detection, FRED)，充分利用汉语数码语音的特点，在实时提取特征参数后完成端点检测，检测到的端点只精确到帧的量级。根据语音学知识〔4〕， MDSR中各类语音的频谱特点如表1表1 汉语数码语音频谱特点频谱特征浊音元音低频(至间)能量较高；中频(至)能量较高浊辅音低频(至间)能量较高；中频(至)能量较低清辅音高频(以上)能量较高采用3个频谱能量分布参数｛R1，R2，R3｝分别反应频谱高频、低频和中频的分布特征。其定义如下： (3) (4)其中： i表示第i帧， N为语音帧长，也即FFT点数， Fk为对语音帧作FFT后各频率点能量， T为语音的总帧数，式(3)，(4) 中求和号的上下限由表1中相应频率范围确定，当N为256，采样频率为实验所用语音库的11kHz时， f0＝81， f1＝9， f2 ＝2， f3＝65， f4＝15.由于进行了能量归一化，所以上述特征与语音的强度是无关的。由于计算MFCC参数时需要作FFT，因此频谱能量分布参数可以顺带算出。此外，用于端点检测的参数还包括短时能量参数E0(i)〔5〕. 由以上参数， FRED算法过程为： 1) 根据采入信号首尾两帧确定能量阈值； 2) 根据参数R2确定语音浊音段； 3) 根据参数R1与E0向浊音段两端扩展式搜索语音起始帧； 4) 根据参数R3确定元音段。 FRED算法的特点是： 1) 利用了语音的本质特征进行端点检测，能够很好地适应环境的变化和干扰，实验证明FRED算法可以有效地提高识别率； 2) 将语音端点定在帧的量级上，保证了特征参数在采样时实时提取，节省了系统运行时间，大大减少了系统所需的存储量； 3) 能够准确地确定语音的元音段，从而将辅音与元音分割开，有利于对语音局部特征的辨识。2 识别算法实验表明， MDSR的识别错误集中在少数几对易混语音中〔1〕，因此本文采用了两极识别框架，即第一级完成对识别结果的初步确定，第二级完成对易混淆语音的进一步辨识。第一级识别在第一级识别中采用的基本方法为离散隐含Malkov模型(DHMM)算法〔5〕，用Viterbi算法〔5〕计算各个数码语音模型产生采入语音的概率Pr。由于HMM是一个有人为假设的模型，所以有不可避免的缺陷。其中一个缺陷是在HMM中各状态的持续时间呈几何分布，即P(Li=n)=anii(1-aii)， (5)其中： Li为状态i的持续时间， aii为状态i跳转回自身的概率。按照式(5)，状态持续时间越长，其概率越小，这是不符合实际情况的。用Γ分布来描述状态持续时间〔5〕，即 (6)其中αi和βi为Γ分布的参数， Fi为归一化因子参数，以上各参数在训练时由训练语音样本估计出。在识别时，用Viterbi算法获得的最佳状态路径中各状态持续时间的概率对Pr作修正： (7)其中： λ为加权系数， S为状态数。识别结果则由修正后的概率P�′r获得。实验证明，用状态持续时间分布对Pr进行修正所得的识别性能有明显的提高。第二级识别对第一级识别的错误作分析，我们发现大部分错误都集中在少数几对易混语音中。表2列出了识别错误最多的6对语音(其中“1”念为〔yao〕)占所有错误的百分比及其区分特征。可见这6对语音占所有错误的91%，所以如果能够在第二级识别中对这几对语音作进一步的辩识，整个MDSR系统的性能会有很大的提高。表2 易混语音错误百分比及其区分特征易混语音占识别错误百分比/% 区分特征 “2”“8” 45 共振峰轨迹变化趋势 “1”“9” 12 不同的辅音 “1”“6” 11 不同的辅音 “0”“6” 11 鼻音特征的有无 “3”“4” 8 不同的元音 “6”“9” 4 辅音的清浊性由表2可见，易混语音“2”“8”， “0”“6”， “6”“9”可以用表征其区分特征的参数，根据一定的规则进行判决，而“1”“9”， “1”“6”， “3”“4”则可以利用端点检测中元、辅音分割的结果，训练元音部分和辅音部分的HMM参数，在识别时针对相应部分再作一次局部HMM识别。表3列出了各对易混语音第二级识别的方法。表3 第二级识别方法易混语音第二级识别方法规则判决的特征参数或局部HMM的辨识部位 “2”“8” 规则判决共振峰轨迹 “1”“9” 局部HMM辨识辅音 “1”“6” 局部HMM辨识辅音 “0”“6” 规则判决鼻音特征 “3”“4” 局部HMM辨识元音 “6”“9” 规则判决频谱分布参数R1 3 实验结果实验使用了一个包含160人从“0”到“9”的各一遍发音的语音库来测试系统的性能，库中语音采样率为11kHz，量化精度为16bit线性量化，录音背景为普通办公室环境。首先测试了特征参数采用LPCC参数，端点检测采用快速端点检测算法〔6〕，只用Viterbi算法进行一级识别时的基本结果，然后测试了逐个加入本文所提出的各种方法后的识别率，结果如表4。可见，所采用的每一种方法都使系统性能较之于基本系统有了显著的提高，最后达到的识别率。表4 算法性能比较采用的算法识别率/% 基本结果采用MFCC参数 FRED算法状态持续时间分布第二级识别 4 结论采用了一系列算法，有效地提高了MDSR系统的识别率，实现了一个高性能的MDSR系统，其特点为： 1) 采用了两极识别框架，增强了对易混语音的区分能力。 2) 充分利用针对汉语数码语音的语音学知识，提高了端点检测的抗干扰能力，提取了用于区分易混语音的共振峰轨迹、鼻音特征等声学特征，进一步提高了系统识别率。 3) 各算法所需的运算量和存储量都较小，有利于MDSR在DSP系统上的实现。■基金项目：国家自然科学基金项目(69772020)和国家“八六三”高技术项目(-10)作者简介：李虎生 (1975-)，男(汉)，四川，硕士研究生作者单位：李虎生(清华大学，电子工程系，北京，100084) 刘加(清华大学，电子工程系，北京，100084) 刘润生(清华大学，电子工程系，北京，100084)参考文献：〔1〕顾良，刘润生. 汉语数码语音识别：困难分析与方法比较〔J〕. 电路与系统学报， 1997， 2 (4)： 32－ Liang, Liu Runsheng. Mandarin digit speech recognition： state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4)： 32－39. (in Chinese) 〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4)： 357－366.〔3〕李虎生，杨明杰，刘润生. 用共振峰轨迹提高汉语数码语音识别性能〔J〕. 清华大学学报， 1999， 39(9).Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9)： 69－71. (in Chinese) 〔4〕吴宗济，林茂灿. 实验语音学教程〔M〕. 北京：高等教育出版社， Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing： Higher Education Press, 1989. (in Chinese) 〔5〕杨行峻，迟惠生. 语音信号数字处理〔M〕. 北京：电子工业出版社， Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing： Publishing House of Electronic Industry, 1995. (in Chinese) 〔6〕顾良. 汉语数码语音识别方法研究及DSP系统设计〔D〕. 北京：清华大学， Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing： Tsinghua University, 1997. (in Chinese)

118 评论 8小时前发布

语音识别论文参考文献

3个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序