关于语音识别的文献论文

发布时间：2023-12-11 02:02:04

关于语音识别的文献论文

1.《基于深度学习的自然语言处理技术研究》2.《基于深度学习的计算机视觉技术研究》3.《基于深度学习的语音识别技术研究》4.《基于深度学习的机器翻译技术研究》5.《基于深度学习的自动驾驶技术研究》6.《基于深度学习的智能家居技术研究》7.《基于深度学习的智能机器人技术研究》8.《基于深度学习的智能推荐系统技术研究》9.《基于深度学习的自然语言理解技术研究》10.《基于深度学习的智能安全技术研究》

多媒体图像压缩技术姓名:Vencent Lee摘要：多媒体数据压缩技术是现代网络发展的关键性技术之一。由于图像和声音信号中存在各种各样的冗余，为数据压缩提供了可能。数据压缩技术有无损压和有损压缩两大类，这些压缩技术又各有不同的标准。一、多媒体数据压缩技术仙农(C．E．Shannon)在创立信息论时，提出把数据看作是信息和冗余度的组合。早期的数据压缩之所以成为信息论的一部分是因为它涉及冗余度问题。而数据之所以能够被压缩是因为其中存在各种各样的冗余；其中有时间冗余性、空间冗余性、信息熵冗余、先验知识冗余、其它冗余等。时间冗余是语音和序列图像中常见的冗余，运动图像中前后两帧间就存在很强的相关性，利用帧间运动补兴就可以将图像数据的速率大大压缩。语音也是这样。尤其是浊音段，在相当长的时间内(几到几十毫秒)语音信号都表现出很强的周期性，可以利用线性预测的方法得到较高的压缩比。空间冗余是用来表示图像数据中存在的某种空间上的规则性，如大面积的均匀背景中就有很大的空间冗余性。信息熵冗余是指在信源的符号表示过程中由于未遵循信息论意义下最优编码而造成的冗余性，这种冗余性可以通过熵编码来进行压缩，经常使用的如Huff-man编码。先验知识冗余是指数据的理解与先验知识有相当大的关系，如当收信方知道一个单词的前几个字母为administrato时，立刻就可以猜到最后一个字母为r，那么在这种情况下，最后一个字母就不带任何信息量了，这就是一种先验知识冗余。其它冗余是指那些主观无法感受到的信息等带来的冗余。通常数据压缩技术可分为无损压缩(又叫冗余压缩)和有损压缩(又叫熵压缩)两大类。无损压缩就是把数据中的冗余去掉或减少，但这些冗余量是可以重新插入到数据中的，因而不会产生失真。该方法一般用于文本数据的压缩，它可以保证完全地恢复原始数据；其缺点是压缩比小(其压缩比一般为2：1至5：1)。有损压缩是对熵进行压缩，因而存在一定程度的失真；它主要用于对声音、图像、动态视频等数据进行压缩，压缩比较高(其压缩比一般高达20：1以上。最新被称为“E—igen—ID”的压缩技术可将基因数据压缩1．5亿倍)。对于多媒体图像采用的有损压缩的标准有静态图像压缩标准(JPEG标准，即‘JointPhotographicExpertGroup’标准)和动态图像压缩标准(MPEG标准，即‘MovingPictureExpertGroup’标准)。JPEG利用了人眼的心理和生理特征及其局限性来对彩色的、单色的和多灰度连续色调的、静态图像的、数字图像的压缩，因此它非常适合不太复杂的以及一般来源于真实景物的图像。它定义了两种基本的压缩算法：一种是基于有失真的压缩算法，另一种是基于空间线性预测技术(DPCM)无失真的压缩算法。为了满足各种需要，它制定了四种工作模式：无失真压缩、基于DCT的顺序工作方式、累进工作方式和分层工作方式。MPEG用于活动影像的压缩。MPEG标准具体包三部分内容：(1)MPEG视频、(2)MPEG音频、(3)MP系统(视频和音频的同步)。MPEG视频是标准的核心分，它采用了帧内和帧间相结合的压缩方法，以离散余变换(DCT)和运动补偿两项技术为基础，在图像质量基不变的情况下，MPEG可把图像压缩至1／100或更MPEG音频压缩算法则是根据人耳屏蔽滤波功能。利用音响心理学的基本原理，即“某些频率的音响在重放其频率的音频时听不到”这样一个特性，将那些人耳完全不到或基本上听到的多余音频信号压缩掉，最后使音频号的压缩比达到8：1或更高，音质逼真，与CD唱片可媲美。按照MPEG标准，MPEG数据流包含系统层和压层数据。系统层含有定时信号，图像和声音的同步、多分配等信息。压缩层包含经压缩后的实际的图像和声数据，该数据流将视频、音频信号复合及同步后，其数据输率为1．5MB／s。其中压缩图像数据传输率为1．2M压缩声音传输率为0．2MB／s。MPEG标准的发展经历了MPEG—I,MPEG一2、MPEG一4、MPEG-7、MPEG一21等不同层次。在MPEG的不同标准中，每—个标准都是建立在前面的标准之上的，并与前面的标准向后的兼容。目前在图像压缩中，应用得较多的是MPEG一4标准，MPEG-是在MPEG-2基础上作了很大的扩充，主要目标是多媒体应用。在MPEG一2标准中，我们的观念是单幅图像，而且包含了一幅图像的全部元素。在MPEG一4标准下，我们的观念变为多图像元素，其中的每—个多图像元素都是独立编码处理的。该标准包含了为接收器所用的指令，告诉接收器如何构成最终的图像。上图既表示了MPEG一4解码器的概念，又比较清楚地描绘了每个部件的用途。这里不是使用单一的视频或音频解码器，而是使用若干个解码器，其中的每一个解码器只接收某个特定的图像(或声音)元素，并完成解码操作。每个解码缓冲器只接收属于它自己的灵敏据流，并转送给解码器。复合存储器完成图像元素的存储，并将它们送到显示器的恰当位置。音频的情况也是这样，但显然不同点是要求同时提供所有的元素。数据上的时间标记保证这些元素在时间上能正确同步。MPEG一4标准对自然元素(实物图像)和合成元素进行区分和规定，计算机生成的动画是合成元素的一个例子。比如，一幅完整的图像可以包含一幅实际的背景图，并在前面有一幅动画或者有另外一幅自然图像。这样的每一幅图像都可以作最佳压缩，并互相独立地传送到接收器，接收器知道如何把这些元素组合在一起。在MPEG一2标准中，图像被看作一个整体来压缩；而在MPEG一4标准下，对图像中的每一个元素进行优化压缩。静止的背景不必压缩到以后的I帧之中去，否则会使带宽的使用变得很紧张。而如果这个背景图像静止10秒钟，就只要传送一次(假设我们不必担心有人在该时间内切人此频道)，需要不断传送的仅是前台的比较小的图像元素。对有些节目类型，这样做会节省大量的带宽。MPEG一4标准对音频的处理也是相同的。例如，有一位独唱演员，伴随有电子合成器，在MPEG一2标准下，我们必须先把独唱和合成器作混合，然后再对合成的音频信号进行压缩与传送。在MPEG一4标准下，我们可以对独唱作单独压缩，然后再传送乐器数字接口的声轨信号，就可以使接收器重建伴音。当然，接收器必须能支持MIDI放音。与传送合成的信号相比，分别传送独唱信号和MIDI数据要节省大量的带宽。其它的节目类型同样可以作类似的规定。MPEG一7标准又叫多媒体内容描述接口标准。图像可以用色彩、纹理、形状、运动等参数来描述，MPEG一7标准是依靠众多的参数对图像与声音实现分类，并对它们的数据库实现查询。二、多媒体数据压缩技术的实现方法目前多媒体压缩技术的实现方法已有近百种，其中基于信源理论编码的压缩方法、离散余弦变换(DCT)和小波分解技术压缩算法的研究更具有代表性。小波技术突破了传统压缩方法的局限性，引入了局部和全局相关去冗余的新思想，具有较大的潜力，因此近几年来吸引了众多的研究者。在小波压缩技术中，一幅图像可以被分解为若干个叫做“小片”的区域；在每个小片中，图像经滤波后被分解成若干个低频与高频分量。低频分量可以用不同的分辨率进行量化，即图像的低频部分需要许多的二进制位，以改善图像重构时的信噪比。低频元素采用精细量化，高频分量可以量化得比较粗糙，因为你不太容易看到变化区域的噪声与误差。此外，碎片技术已经作为一种压缩方法被提出，这种技术依靠实际图形的重复特性。用碎片技术压缩图像时需要占用大量的计算机资源，但可以获得很好的结果。借助于从DNA序列研究中发展出来的模式识别技术，能减少通过WAN链路的流量，最多时的压缩比率能达到90％，从而为网络传送图像和声音提供更大的压缩比，减轻风络负荷，更好地实现网络信息传播。三、压缩原理由于图像数据之间存在着一定的冗余，所以使得数据的压缩成为可能。信息论的创始人Shannon提出把数据看作是信息和冗余度（redundancy）的组合。所谓冗余度，是由于一副图像的各像素之间存在着很大的相关性，可利用一些编码的方法删去它们，从而达到减少冗余压缩数据的目的。为了去掉数据中的冗余，常常要考虑信号源的统计特性，或建立信号源的统计模型。图像的冗余包括以下几种：(1) 空间冗余：像素点之间的相关性。(2) 时间冗余：活动图像的两个连续帧之间的冗余。(3) 信息熵冗余：单位信息量大于其熵。(4) 结构冗余：图像的区域上存在非常强的纹理结构。(5) 知识冗余：有固定的结构，如人的头像。(6) 视觉冗余：某些图像的失真是人眼不易觉察的。对数字图像进行压缩通常利用两个基本原理：(1) 数字图像的相关性。在图像的同一行相邻像素之间、活动图像的相邻帧的对应像素之间往往存在很强的相关性，去除或减少这些相关性，也就去除或减少图像信息中的冗余度，即实现了对数字图像的压缩。(2) 人的视觉心理特征。人的视觉对于边缘急剧变化不敏感(视觉掩盖效应)，对颜色分辨力弱，利用这些特征可以在相应部分适当降低编码精度，而使人从视觉上并不感觉到图像质量的下降，从而达到对数字图像压缩的目的。编码压缩方法有许多种，从不同的角度出发有不同的分类方法，比如从信息论角度出发可分为两大类：(1)冗余度压缩方法，也称无损压缩，信息保持编码或熵编码。具体讲就是解码图像和压缩编码前的图像严格相同，没有失真，从数学上讲是一种可逆运算。(2)信息量压缩方法，也称有损压缩，失真度编码或熵压缩编码。也就是讲解码图像和原始图像是有差别的，允许有一定的失真。应用在多媒体中的图像压缩编码方法，从压缩编码算法原理上可以分类为：(1)无损压缩编码种类 •哈夫曼编码 •算术编码 •行程编码 •Lempel zev编码(2)有损压缩编码种类 •预测编码：DPCM，运动补偿 •频率域方法：正文变换编码(如DCT)，子带编码 •空间域方法：统计分块编码 •模型方法：分形编码，模型基编码 •基于重要性：滤波，子采样，比特分配，矢量量化(3)混合编码 •JBIG，H261，JPEG，MPEG等技术标准衡量一个压缩编码方法优劣的重要指标(1)压缩比要高，有几倍、几十倍，也有几百乃至几千倍；(2)压缩与解压缩要快，算法要简单，硬件实现容易；(3)解压缩的图像质量要好。四、JPEG图像压缩算法1．.JPEG压缩过程JPEG压缩分四个步骤实现：1.颜色模式转换及采样；变换；3.量化；4.编码。2．1．颜色模式转换及采样RGB色彩系统是我们最常用的表示颜色的方式。JPEG采用的是YCbCr色彩系统。想要用JPEG基本压缩法处理全彩色图像，得先把RGB颜色模式图像数据，转换为YCbCr颜色模式的数据。Y代表亮度，Cb和Cr则代表色度、饱和度。通过下列计算公式可完成数据转换。Y=＋128人类的眼晴对低频的数据比对高频的数据具有更高的敏感度，事实上，人类的眼睛对亮度的改变也比对色彩的改变要敏感得多，也就是说Y成份的数据是比较重要的。既然Cb成份和Cr成份的数据比较相对不重要，就可以只取部分数据来处理。以增加压缩的比例。JPEG通常有两种采样方式：YUV411和YUV422，它们所代表的意义是Y、Cb和Cr三个成份的资料取样比例。2．变换DCT变换的全称是离散余弦变换(Discrete Cosine Transform)，是指将一组光强数据转换成频率数据，以便得知强度变化的情形。若对高频的数据做些修饰，再转回原来形式的数据时，显然与原始数据有些差异，但是人类的眼睛却是不容易辨认出来。压缩时，将原始图像数据分成8*8数据单元矩阵，例如亮度值的第一个矩阵内容如下：JPEG将整个亮度矩阵与色度Cb矩阵，饱和度Cr矩阵，视为一个基本单元称作MCU。每个MCU所包含的矩阵数量不得超过10个。例如，行和列采样的比例皆为4:2:2，则每个MCU将包含四个亮度矩阵，一个色度矩阵及一个饱和度矩阵。当图像数据分成一个8*8矩阵后，还必须将每个数值减去128，然后一一代入DCT变换公式中，即可达到DCT变换的目的。图像数据值必须减去128，是因为DCT转换公式所接受的数字范围是在-128到+127之间。DCT变换公式：x,y代表图像数据矩阵内某个数值的坐标位置f(x,y)代表图像数据矩阵内的数个数值u,v代表DCT变换后矩阵内某个数值的坐标位置F(u,v)代表DCT变换后矩阵内的某个数值u=0 且 v=0 c(u)c(v)=1/>0 或 v>0 c(u)c(v)=1经过DCT变换后的矩阵数据自然数为频率系数，这些系数以F（0，0）的值最大，称为DC，其余的63个频率系数则多半是一些接近于0的正负浮点数，一概称之为AC。3．3、量化图像数据转换为频率系数后，还得接受一项量化程序，才能进入编码阶段。量化阶段需要两个8*8矩阵数据，一个是专门处理亮度的频率系数，另一个则是针对色度的频率系数，将频率系数除以量化矩阵的值，取得与商数最近的整数，即完成量化。当频率系数经过量化后，将频率系数由浮点数转变为整数，这才便于执行最后的编码。不过，经过量化阶段后，所有数据只保留整数近似值，也就再度损失了一些数据内容，JPEG提供的量化表如下：2．4、编码Huffman编码无专利权问题，成为JPEG最常用的编码方式，Huffman编码通常是以完整的MCU来进行的。编码时，每个矩阵数据的DC值与63个AC值，将分别使用不同的Huffman编码表，而亮度与色度也需要不同的Huffman编码表，所以一共需要四个编码表，才能顺利地完成JPEG编码工作。DC编码DC是彩采用差值脉冲编码调制的差值编码法，也就是在同一个图像分量中取得每个DC值与前一个DC值的差值来编码。DC采用差值脉冲编码的主要原因是由于在连续色调的图像中，其差值多半比原值小，对差值进行编码所需的位数，会比对原值进行编码所需的位数少许多。例如差值为5，它的二进制表示值为101，如果差值为-5，则先改为正整数5，再将其二进制转换成1的补码即可。所谓1的补码，就是将每个Bit若值为0，便改成1；Bit为1，则变成0。差值5应保留的位数为3，下表即列出差值所应保留的Bit数与差值内容的对照。在差值前端另外加入一些差值的霍夫曼码值，例如亮度差值为5（101）的位数为3，则霍夫曼码值应该是100，两者连接在一起即为100101。下列两份表格分别是亮度和色度DC差值的编码表。根据这两份表格内容，即可为DC差值加上霍夫曼码值，完成DC的编码工作。AC编码AC编码方式与DC略有不同，在AC编码之前，首先得将63个AC值按Zig-zag排序，即按照下图箭头所指示的顺序串联起来。63个AC值排列好的，将AC系数转换成中间符号，中间符号表示为RRRR/SSSS，RRRR是指第非零的AC之前，其值为0的AC个数，SSSS是指AC值所需的位数，AC系数的范围与SSSS的对应关系与DC差值Bits数与差值内容对照表相似。如果连续为0的AC个数大于15，则用15/0来表示连续的16个0，15/0称为ZRL（Zero Rum Length），而（0/0）称为EOB（Enel of Block）用来表示其后所剩余的AC系数皆等于0，以中间符号值作为索引值，从相应的AC编码表中找出适当的霍夫曼码值，再与AC值相连即可。例如某一组亮度的中间符为5/3，AC值为4，首先以5/3为索引值，从亮度AC的Huffman编码表中找到1111111110011110霍夫曼码值，于是加上原来100（4）即是用来取[5，4]的Huffman编码1111111110011110100，[5，4]表示AC值为4的前面有5个零。由于亮度AC，色度AC霍夫曼编码表比较长，在此省略去，有兴趣者可参阅相关书籍。实现上述四个步骤，即完成一幅图像的JPEG压缩。

不难，我可以帮你写。论文提纲可分为简单提纲和详细提纲两种。简单提纲是高度概括的，只提示论文的要点，如何展开则不涉及。这种提纲虽然简单，但由于它是经过深思熟虑构成的，写作时能顺利进行。没有这种准备，边想边写很难顺利地写下去。编写要点编写毕业论文提纲有两种方法：一、标题式写法。即用简要的文字写成标题，把这部分的内容概括出来。这种写法简明扼要，一目了然，但只有作者自己明白。毕业论文提纲一般不能采用这种方法编写。二、句子式写法。即以一个能表达完整意思的句子形式把该部分内容概括出来。这种写法具体而明确，别人看了也能明了，但费时费力。毕业论文的提纲编写要交与指导教师阅读，所以，要求采用这种编写方法。

《解析深度学习语音识别实践》百度网盘pdf最新全集下载:链接:

语音识别论文参考文献

1。 Frosini A, Gori M, Priami P (1996) A neural network-based model弗罗西尼甲，普里亚米P（下1996）哥里的神经网络的M -基于模型for paper currency recognition and verification.为纸币识别和验证。 IEEE Trans Neural电机及电子学工程师联合会跨神经Network 7:1482-1490网络7:1482-14902. 2。 Kosaka T, Taketani N, Omatu S (1999) Classification of Italian小坂吨，武谷ñ，Omatu工作主任（1999年）意大利分类bills by a competitive neural network.法案通过有竞争力的神经网络。 Trans Inst Elec Eng Jpn中国科学院利安达反英Jpn119-C:948-954 119 - ç :948 - 9543. 3。 Fukunaga K (1972) Introduction to statistical pattern recognition.福永度（1972年）介绍统计模式识别。Academic, New York学术，纽约4. 4。 Tipping ME, Bishop CM (1999) Probabilistic principal component小费我，主教厘米（1999年）的主要组成部分概率analysis.分析。 J Roy Stat Soc B 61:611-622 ĵ罗伊统计芯片乙61:611-6225. 5。 Haykin S (1999) Neural networks. Haykin工作主任（1999年）神经网络。 Prentice Hall, New Jersey普伦蒂斯大厅，新泽西6. 6。 Kohonen T (1995) Self-organization maps.基于Kohonen T（下1995）自组织地图。 Springer, Berlin施普林格，柏林Heidelberg New York海德堡纽约7. 7。 Rabiner LR (1989) A tutorial on hidden Markov models and拉比娜的LR（1989）关于隐马尔可夫模型和教程selected applications in speech recognition.在语音识别选定的应用程序。 Proceedings of IEEE诉讼的IEEE77:257-286 77:257-2868. 8。 Kohavi R (1995) A study of cross-validation and bootstrap for accuracy Kohavi住宅（1995年）的交叉研究，验证和引导的准确性estimation and model selection.估计和模型选择。 Proceedings of the 14th International程序的第14届国际Joint Conference on Artificial Intelligence IJCAI,联席会议人工智能IJCAI，Montreal, Canada, pp 1137-11加拿大蒙特利尔，第1137至1111年

计算机人工智慧是一种发展前景较广,潜力较大的计算机发展形式。下面是我为大家整理的，供大家参考。

摘要：阐述了人工智慧的核心问题及启发式搜寻函式的基本概念，介绍了4种经典问题启发式搜寻函式的选择及其研究中遇到的难题，并从中求解来探讨解决问题的思路。

关键词：人工智慧;问题求解;启发式搜寻函式

中图分类号：TP18文献标识码：A文章编号：1009-3044***2008***08-10ppp-0c

人工智慧问题广义地说，都可以看作是一个问题求解过程，因此问题求解是人工智慧的核心问题，它通常是通过在某个可能的解答空间中寻找一个解来进行的。在问题求解过程中，人们所面临的大多数现实问题往往没有确定性的演算法，通常需要用搜索演算法来解决。目标和达到目标的一组方法称为问题，搜寻就是研究这些方法能够做什么的过程。问题求解一般需要考虑两个基本问题：首先是使用合适的状态空间表示问题，其次是测试该状态空间中目标状态是否出现。

1 什么是启发式搜寻函式

在人工智慧中有很大一类问题的求解技术依赖于搜寻。启发式方法就是采用有利于问题自身特征资讯来引导搜寻过程的方法，在学生学习过程中启发式函式的选取至关重要，决定整个演算法的效率与成败。启发式搜寻通常用于两种不同型别的问题：***1***前向推力和***2***反向推理。前向推理一般用于状态空间的搜寻。在前向推理中，推理是从预定义的初始状态出发向目标状态反向方向执行;反向推理一般用于问题归约中。在反向推理中，推理是从给定的目标状态向初始状态执行。

用来评估节点重要性的函式称为评估函式。评估函式f***x***定义为从初始节点S0出发，约束地经过节点x到达目标节点Sg的所有路径中最小路径代价的估计值。其一般形式为：

其中，g***x***表示从初始节点S0到节点x的实际代价;h***x***表示从x到目标节点Sg的最优路径的评估代价，它体现了问题的启发式资讯，其形式要根据问题的特征确定，h***x***称为启发式函式。因此，启发式方法把问题状态的描述转换成了对问题解决程度的描述，这一程度用评估函式的值来表示。

2 滑动积木游戏启发式搜寻函式

滑动积木块游戏的棋盘结构及某一种将牌的初始排列结构如下：

其中B表示黑色将牌，W表示白色将牌，E表示空格。游戏的规定走法是：

***1***任意一个将牌可以移入相邻的空格，规定其耗散值为1;

***2***任意一个将牌可相隔1个或2个其他的将牌跳入空格，规定其耗散值等于跳过将牌的数目;游戏要达到的目标是使所有白将牌都处在黑将牌的左边***左边有无空格均可***。对这个问题，定义一个启发函式h***n***，并给出利用这个启发函式用演算法A求解时所产生的搜寻树。可定义h为：h=B右边的W的数目

很多知识对求解问题有好处，这些知识并不一定要写成启发函式的形式，很多情况下，也不一定能清晰的写成一个函式的形式。由题意，在目标状态下，一个扇区的数字之和等于12，一个相对扇区的数字之和等于24，而一个阴影扇区或者非阴影扇区的数字之和为48。

为此，我们可以将目标进行分解，首先满足阴影扇区的数字之和为48。为了这个目标我们可以通过每次转动圆盘45o实现。在第一个目标被满足的情况下，我们再考虑第二个目标：每一个相对扇区的数字和为24。在实现这个目标的过程中，我们希望不破坏第一个目标。为此我们采用转动90o的方式实现，这样即可以调整相对扇区的数字和，又不破坏第一个目标。在第二个目标实现之后，我们就可以实现最终目标：扇区内的数字和为12。同样我们希望在实现这个目标的时候，不破坏前两个目标。为此我们采用转动180o的方式实现。这样同样是即可以保证前两个目标不被破坏，又可以实现第三个目标。

经过这样的分析以后，我们发现该问题就清晰多了。当然，是否每一个第一、第二个目标的实现，都能够实现第三个目标呢?有可能不一定。在这种情况下，就需要在发现第三个目标不能实现时，重新试探其他的第一、第二个目标。

4 传教士野人问题启发式搜寻函式

传教士野人问题，n个传教士和n个野人从河的一边摆渡到河的另一边，为安全起见，任何时候传教士的数目不能小于野人的数目，渡船每次渡k个人， N=5，k≤3的M-C问题，找到相应的启发函式。定义h1=M+C-2B，其中M，C分别是在河的左岸的传教士人数和野人人数。B=1表示船在左岸，B=0表示船在右岸。也可以定义h2=M+C，h1是满足A*条件的，而h2不满足。

要说明h***n***=M+C不满足A*条件是很容易的，只需要给出一个反例就可以了。比如状态***1, 1, 1***，h***n***=M+C=1+1=2，而实际上只要一次摆渡就可以达到目标状态，其最优路径的耗散值为1。所以不满足A*的条件。

下面我们来证明h***n***=M+C-2B是满足A*条件的。

我们分两种情况考虑。先考虑船在左岸的情况。如果不考虑限制条件，也就是说，船一次可以将三人从左岸运到右岸，然后再有一个人将船送回来。这样，船一个来回可以运过河2人，而船仍然在左岸。而最后剩下的三个人，则可以一次将他们全部从左岸运到右岸。所以，在不考虑限制条件的情况下，也至少需要摆渡次。其中分子上的"-3"表示剩下三个留待最后一次运过去。除以"2"是因为一个来回可以运过去2人，需要个来回，而"来回"数不能是小数，需要向上取整，这个用符号表示。而乘以"2"是因为一个来回相当于两次摆

渡，所以要乘以2。而最后的"+1"，则表示将剩下的3个运过去，需要一次摆渡。

再考虑船在右岸的情况。同样不考虑限制条件。船在右岸，需要一个人将船运到左岸。因此对于状态***M，C，0***来说，其所需要的最少摆渡数，相当于船在左岸时状态***M+1，C，1***或***M，C+1，1***所需要的最少摆渡数，再加上第一次将船从右岸送到左岸的一次摆渡数。因此所需要的最少摆渡数为：***M+C+1***-2+1 。其中***M+C+1***的"+1"表示送船回到左岸的那个人，而最后边的"+1"，表示送船到左岸时的一次摆渡。

综合船在左岸和船在右岸两种情况下，所需要的最少摆渡次数用一个式子表示为：M+C-2B。其中B=1表示船在左岸，B=0表示船在右岸。由于该摆渡次数是在不考虑限制条件下，推出的最少所需要的摆渡次数。因此，当有限制条件时，最优的摆渡次数只能大于等于该摆渡次数。所以该启发函式h是满足A*条件的。

5 结束语

总之，计算机人工智慧启发式搜寻函式选取的方法比较多，试图找出问题中选取函式的相似的方法，从文中可知还没有那一个函式可以处于绝对的地位，可以适用于所有环境。如何将各种选取启发式搜寻函式的思路结合起来，寻找各个问题选取函式的特点规律，在这个方面还是有很多的理论和实践值得深入研究。

参考文献：

[1]史忠植.高阶人工智慧***第二版***[M].科学出版社,2006.

[2]廉师友.人工智慧技术导论***第二版***[M].西安电子科技大学出版社,2002.

[3]陈群秀.人工智慧***远端教育研究生课程***[EB/OL].

[4]Visual Prolog语言简介[EB/OL].

[5]人工智慧语言[EB/OL].第十四章人工智慧语言

摘要：近年来，随着资讯科技以及计算机技术的不断发展，人工智慧在计算机中的应用也随之加深，其被广泛应用于计算机的各个领域。本文针对计算机在人工智慧中的应用进行研究，阐述了人工智慧的理论概念，分析当前其应用于人工智慧所存在的问题，并介绍人工智慧在部分领域中的应用。

关键词：计算机;人工智慧;应用研究

中图分类号：文献标识码：A文章编号：1007-9599 ***2011*** 19-0000-01

Applied Research of puter on Artificial Intelligence

Han Xiaoying

***Jiujiang University,Jiujiang332005,China***

Abstract:In recent years,as information technology and puter technology continues to evolve,the application of artificial intelligence in the puter also will deepen thEir puters are widely used in various this paper,puter applications in artificial intelligence research,explained the concept of artificial intelligence theory to *** yze the current applied to the problems of artificial intelligence,and describes the field of artificial intelligence in some applications.

intelligence;Applied research

一、前言

人工智慧又称机器智慧，来自于1956年的Dartmouth学会，在这学会上人们最初提出了“人工智慧”这一词。人工智慧作为一门综合性的学科，其是在电脑科学、资讯理论、心理学、神经生理学以及语言学等多种学科的互相渗透下发展而成。在计算机的应用系统方面，人工智慧是专门研究如何制造智慧系统或智慧机器来模仿人类进行智慧活动的能力，从而延伸人们的科学化智慧。人工智慧是一门富有挑战性的科学，从事这项工作的人必须懂得计算机知识、心理学与哲学。人工智慧是处于思维科学的技术应用层次，是其应用分支之一。数学常被认为是多种学科的基础科学，数学也进入语言及思维领域，人工智慧学科须借用数学工具。数学在标准逻辑及模糊数学等范围发挥作用，其进入人工智慧学科，两者将互相促进且快速发展。

二、人工智慧应用于计算机中存在的问题

***一***计算机语言理解的弱点。当前，计算机尚未能确切的理解语言的复杂性。然而，正处于初步研制阶段的计算机语言翻译器，对于演算法上的规范句子，已能显示出极高的造句能力及理解能力。但其在理解句子意思上，尚未获得明显成就。我们所获取的资讯多来自于上下文的关系以及自身掌握的知识。人们在日常生活中的个人见解、社会见解以及文化见解给句子附加的意义带来很大影响。

***二***模式识别的疑惑。采用计算机进行研究及开展模式识别，在一定程度上虽取得良好效果，有些已作为产品进行实际应用，但其理论以及方法和人的感官识别机制决然不同。人的形象思维能力以及识别手段，即使是计算机中最先进的识别系统也无法达到。此外，在现实社会中，生活作为一项结构宽松的任务，普通的家畜均能轻易对付，但机器却无法做到，这并不意味着其永久不会，而是暂时的。

三、人工智慧在部分领域中的应用

伴随着AI技术的快速发展，当今时代的各种资讯科技发展均与人工智慧技术密切相关，这意味着人工智慧已广泛应用于计算机的各个领域，以下是笔者对于人工智慧应用于计算机的部分领域进行阐述。具体情况如下。

***一***人工智慧进行符号计算。科学计算作为计算机的一种重要用途，可分为两大类别。第一是纯数值的计算，如求函式值。其次是符号的计算，亦称代数运算，是一种智慧的快速的计算，处理的内容均为符号。符号可代表实数、整数、复数以及有理数，或者代表 *** 、函式以及多项式等。随着人工智慧的不断发展以及计算机的逐渐普及，多种功能的计算机代数系统软体相继出现，如Maple或Mathematic。由于这些软体均用C语言写成，因此，其可在多数的计算机上使用。

***二***人工智慧用于模式识别。模式识别即计算机通过数学的技术方法对模式的判读及自动处理进行研究。计算机模式识别的实现，是研发智慧机器的突破点，其使人类深度的认识自身智慧。其识别特点为准确、快速以及高效。计算机的模式识别过程相似于人类的学习过程，如语音识别。语音识别即为使计算机听懂人说

的话而进行自动翻译，如七国语言的口语自动翻译系统。该系统的实现使人们出国时在购买机票、预定旅馆及兑换外币等方面，只需通过国际网际网路及电话网路，即可用电话或手机与“老外”进行对话。

***三***人工智慧计算机网路安全中的应用。当前，在计算机的网路安全管理中常见的技术主要有入侵检测技术以及防火墙技术。防火墙作为计算机网路安全的装置之一，其在计算机的网路安全管理方面发挥重要作用。以往的防火墙尚未有检测加密Web流量的功能，原因在于其未能见到加密的SSL流中的资料，无法快速的获取SSL流中的资料且未能对其进行解密。因而，以往的防火墙无法有效的阻止应用程式的攻击。此外，一般的应用程式进行加密后，可轻易的躲避以往防火墙的检测。因此，由于以往的防火墙无法对应用资料流进行完整的监控，使其难以预防新型攻击。新型的防火墙是通过利用统计、概率以及决策的智慧方法以识别资料，达到访问受到许可权的目地。然而此方法大多数是从人工智慧的学科中采取，因此，被命名为“智慧防火墙”。

***四***人工智慧应用于计算机网路系统的故障诊断。人工神经网路作为一种资讯处理系统，是通过人类的认知过程以及模拟人脑的组织结构而成。1943年时，人工神经网路首次被人提出并得到快速发展，其成为了人工智慧技术的另一个分支。人工神经网路通过自身的优点，如联想记忆、自适应以及并列分布处理等，在智慧故障诊断中受到广泛关注，并且发挥极大的潜力，为智慧故障诊断的探索开辟新的道路。人工神经网路的诊断方法异于专家系统的诊断方法，其通过现场众多的标准样本进行学习及训练，加强调整人工神经网路中的阀值与连线权，使从中获取的知识隐藏分布于整个网路，以达到人工神经网路的模式记忆目的。因此，人工神经网路具备较强的知识捕捉能力，能有效处理异常资料，弥补专家系统方法的缺陷。

四、结束语

总而言之，人工智慧作为计算机技术的潮流，其研究的理论及发现决定了计算机技术的发展前景。现今，多数人工智慧的研究成果已渗入到人们的日常生活。因此，我们应加强人工智慧技术的研究及开发，只有对其应用于各领域中存在的问题进行全面分析，并对此采取相应措施，使其顺利发展。人工智慧技术的发展将给人们的生活、学习以及工作带来极大的影响。

参考文献：

[1]杨英.智慧型计算机辅助教学系统的实现与研究[J].电脑知识与技术,2009,9

[2]毛毅.人工智慧研究热点及其发展方向[J].技术与市场,2008,3

[3]李德毅.网路时代人工智慧研究与发展[J].智慧系统学报,2009,1

[4]陈步英,冯红.人工智慧的应用研究[J].邢台职业技术学院学报,2008,1

高性能汉语数码语音识别算法李虎生刘加刘润生摘要：提出了一个高性能的汉语数码语音识别(MDSR)系统。 MDSR系统使用Mel频标倒谱系数(MFCC)作为主要的语音特征参数，同时提取共振峰轨迹和鼻音特征以区分一些易混语音对，并提出一个基于语音特征的实时端点检测算法，以减少系统资源需求，提高抗干扰能力。采用了两级识别框架来提高语音的区分能力，其中第一级识别用于确定识别候选结果，第二级识别用于区分易混语音对。由于采用了以上改进， MDSR系统识别率达到了.关键词：汉语; 数码语音识别分类号：TN 文献标识码：A文章编号：1000-0054(2000)01-0032-03High performance digit mandarinspeech recognitionLI Husheng LIU Jia LIU Runsheng(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)Abstract：High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to reduce the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of words：mandarin；digit speech recognition▲ 汉语数码语音识别 (mandarin digit speech recognition, MDSR) 是语音识别领域中一个具有广泛应用背景的分支，它的任务是识别“0”到“9”等10个非特定人汉语数码语音，在电话语音拨号、工业监控、家电遥控等领域有着极大的应用价值〔1〕。但与英语数码语音识别相比， MDSR的性能尚未达到成熟应用水平，这是因为 1) 汉语数码语音的混淆程度较高； 2) 汉语是一个多方言语种，说话人会带有或多或少的地方口音； 3) 在许多应用背景中，MDSR需要在运算和存储资源都较为紧张的数字信号处理器(digital signal processor, DSP)系统上实现，这为MDSR算法的设计带来了很大的限制。由于以上原因，MDSR是一项相当困难的任务。针对汉语数码语音识别提出了一系列高性能的算法，使MDSR识别率达到了。由这些算法构成的识别系统框图如图1所示。 MDSR系统〔1〕提取的语音特征参数包括用于识别的参数和用于端点检测的参数。图1 MDSR系统框图1 语音前端处理语音前端处理包括语音特征提取和端点检测两部分。语音特征提取基本识别参数目前常用的语音识别参数有基于线性预测编码(LPC)的线性预测倒谱系数(LPCC)和基于Mel频标的倒谱系数(MFCC)〔2〕。实验证明，采用MFCC参数时系统识别率高于采用LPCC参数。因此本文的基本识别参数采用MFCC参数及一阶差分MFCC参数。共振峰轨迹在MDSR中，易混淆语音“2”和“8”可以由其第2，3共振峰的变化趋势区分开〔3〕。因此可将共振峰轨迹作为识别参数之一，并选用峰值选取算法来提取共振峰轨迹〔3〕。鼻音特征参数汉语数码语音中，“0”的元音具有鼻音的特征，而“0”容易与具有非鼻化元音的“6”混淆，因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括〔4〕： 1) 鼻音在频谱低端(约左右)有1个较强的共振峰。 2) 鼻音在中频段(约～)的能量分布较为均匀，没有明显的峰或谷。采用以下2个参数表征鼻音的特征： 1) 低频能量比： (1)其中fn为鼻音低频共振峰频率， B为鼻音低频共振峰带宽。Fk为对语音作快速Fourior变换(FFT)后第k个频率点的能量，〔f1，f2〕则为语音“6”能量集中的频带。 2) 频谱质心： (2) 其中〔fL,fH〕为～的中频段。由于MDSR系统采用的基本识别参数为MFCC参数，其计算过程中需要作FFT，所以低频能量比和频谱质心两个参数可以顺带算出，不会影响特征提取的实时完成。端点检测本文提出了基于语音特征的实时端点检测算法(feature-based real-time endpoint detection, FRED)，充分利用汉语数码语音的特点，在实时提取特征参数后完成端点检测，检测到的端点只精确到帧的量级。根据语音学知识〔4〕， MDSR中各类语音的频谱特点如表1表1 汉语数码语音频谱特点频谱特征浊音元音低频(至间)能量较高；中频(至)能量较高浊辅音低频(至间)能量较高；中频(至)能量较低清辅音高频(以上)能量较高采用3个频谱能量分布参数｛R1，R2，R3｝分别反应频谱高频、低频和中频的分布特征。其定义如下： (3) (4)其中： i表示第i帧， N为语音帧长，也即FFT点数， Fk为对语音帧作FFT后各频率点能量， T为语音的总帧数，式(3)，(4) 中求和号的上下限由表1中相应频率范围确定，当N为256，采样频率为实验所用语音库的11kHz时， f0＝81， f1＝9， f2 ＝2， f3＝65， f4＝15.由于进行了能量归一化，所以上述特征与语音的强度是无关的。由于计算MFCC参数时需要作FFT，因此频谱能量分布参数可以顺带算出。此外，用于端点检测的参数还包括短时能量参数E0(i)〔5〕. 由以上参数， FRED算法过程为： 1) 根据采入信号首尾两帧确定能量阈值； 2) 根据参数R2确定语音浊音段； 3) 根据参数R1与E0向浊音段两端扩展式搜索语音起始帧； 4) 根据参数R3确定元音段。 FRED算法的特点是： 1) 利用了语音的本质特征进行端点检测，能够很好地适应环境的变化和干扰，实验证明FRED算法可以有效地提高识别率； 2) 将语音端点定在帧的量级上，保证了特征参数在采样时实时提取，节省了系统运行时间，大大减少了系统所需的存储量； 3) 能够准确地确定语音的元音段，从而将辅音与元音分割开，有利于对语音局部特征的辨识。2 识别算法实验表明， MDSR的识别错误集中在少数几对易混语音中〔1〕，因此本文采用了两极识别框架，即第一级完成对识别结果的初步确定，第二级完成对易混淆语音的进一步辨识。第一级识别在第一级识别中采用的基本方法为离散隐含Malkov模型(DHMM)算法〔5〕，用Viterbi算法〔5〕计算各个数码语音模型产生采入语音的概率Pr。由于HMM是一个有人为假设的模型，所以有不可避免的缺陷。其中一个缺陷是在HMM中各状态的持续时间呈几何分布，即P(Li=n)=anii(1-aii)， (5)其中： Li为状态i的持续时间， aii为状态i跳转回自身的概率。按照式(5)，状态持续时间越长，其概率越小，这是不符合实际情况的。用Γ分布来描述状态持续时间〔5〕，即 (6)其中αi和βi为Γ分布的参数， Fi为归一化因子参数，以上各参数在训练时由训练语音样本估计出。在识别时，用Viterbi算法获得的最佳状态路径中各状态持续时间的概率对Pr作修正： (7)其中： λ为加权系数， S为状态数。识别结果则由修正后的概率P�′r获得。实验证明，用状态持续时间分布对Pr进行修正所得的识别性能有明显的提高。第二级识别对第一级识别的错误作分析，我们发现大部分错误都集中在少数几对易混语音中。表2列出了识别错误最多的6对语音(其中“1”念为〔yao〕)占所有错误的百分比及其区分特征。可见这6对语音占所有错误的91%，所以如果能够在第二级识别中对这几对语音作进一步的辩识，整个MDSR系统的性能会有很大的提高。表2 易混语音错误百分比及其区分特征易混语音占识别错误百分比/% 区分特征 “2”“8” 45 共振峰轨迹变化趋势 “1”“9” 12 不同的辅音 “1”“6” 11 不同的辅音 “0”“6” 11 鼻音特征的有无 “3”“4” 8 不同的元音 “6”“9” 4 辅音的清浊性由表2可见，易混语音“2”“8”， “0”“6”， “6”“9”可以用表征其区分特征的参数，根据一定的规则进行判决，而“1”“9”， “1”“6”， “3”“4”则可以利用端点检测中元、辅音分割的结果，训练元音部分和辅音部分的HMM参数，在识别时针对相应部分再作一次局部HMM识别。表3列出了各对易混语音第二级识别的方法。表3 第二级识别方法易混语音第二级识别方法规则判决的特征参数或局部HMM的辨识部位 “2”“8” 规则判决共振峰轨迹 “1”“9” 局部HMM辨识辅音 “1”“6” 局部HMM辨识辅音 “0”“6” 规则判决鼻音特征 “3”“4” 局部HMM辨识元音 “6”“9” 规则判决频谱分布参数R1 3 实验结果实验使用了一个包含160人从“0”到“9”的各一遍发音的语音库来测试系统的性能，库中语音采样率为11kHz，量化精度为16bit线性量化，录音背景为普通办公室环境。首先测试了特征参数采用LPCC参数，端点检测采用快速端点检测算法〔6〕，只用Viterbi算法进行一级识别时的基本结果，然后测试了逐个加入本文所提出的各种方法后的识别率，结果如表4。可见，所采用的每一种方法都使系统性能较之于基本系统有了显著的提高，最后达到的识别率。表4 算法性能比较采用的算法识别率/% 基本结果采用MFCC参数 FRED算法状态持续时间分布第二级识别 4 结论采用了一系列算法，有效地提高了MDSR系统的识别率，实现了一个高性能的MDSR系统，其特点为： 1) 采用了两极识别框架，增强了对易混语音的区分能力。 2) 充分利用针对汉语数码语音的语音学知识，提高了端点检测的抗干扰能力，提取了用于区分易混语音的共振峰轨迹、鼻音特征等声学特征，进一步提高了系统识别率。 3) 各算法所需的运算量和存储量都较小，有利于MDSR在DSP系统上的实现。■基金项目：国家自然科学基金项目(69772020)和国家“八六三”高技术项目(-10)作者简介：李虎生 (1975-)，男(汉)，四川，硕士研究生作者单位：李虎生(清华大学，电子工程系，北京，100084) 刘加(清华大学，电子工程系，北京，100084) 刘润生(清华大学，电子工程系，北京，100084)参考文献：〔1〕顾良，刘润生. 汉语数码语音识别：困难分析与方法比较〔J〕. 电路与系统学报， 1997， 2 (4)： 32－ Liang, Liu Runsheng. Mandarin digit speech recognition： state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4)： 32－39. (in Chinese) 〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4)： 357－366.〔3〕李虎生，杨明杰，刘润生. 用共振峰轨迹提高汉语数码语音识别性能〔J〕. 清华大学学报， 1999， 39(9).Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9)： 69－71. (in Chinese) 〔4〕吴宗济，林茂灿. 实验语音学教程〔M〕. 北京：高等教育出版社， Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing： Higher Education Press, 1989. (in Chinese) 〔5〕杨行峻，迟惠生. 语音信号数字处理〔M〕. 北京：电子工业出版社， Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing： Publishing House of Electronic Industry, 1995. (in Chinese) 〔6〕顾良. 汉语数码语音识别方法研究及DSP系统设计〔D〕. 北京：清华大学， Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing： Tsinghua University, 1997. (in Chinese)

语音识别毕业论文

摘要: 多媒体通信技术是当今世界科技领域中最有活力、发展最快的高新信息技术，它时时刻刻都在影响着世界经济的发展和科学技术进步的速度，并不断改变着人类的生活方式和生活质量。多媒体通信综合了多种媒体信息间的通信，它是通过现有的各种通讯网来传输、转储和接收多媒体信息的通信方式，几乎覆盖了信息技术领域的所有范畴，包括数据、音频和视频的综合处理和应用技术，其关键技术是多媒体信息的高效传输和交互处理。关键词：多媒体图象音频功能The application of multimedia technologyAbstract: Multimedia communications technology is the world's science and technology in the field of the most dynamic and fastest growing high-tech information technology, it always have influence in the world economic development and the pace of scientific and technological progress and changing the human way of life and quality of life . A variety of integrated multimedia communications between the communications media information, it is through the various existing communications network to transmit and receive multimedia information and dump the means of communication, cover nearly the area of information technology in all areas, including data, audio and video The integrated treatment and application technology, its technology is the key to the efficient transmission of multimedia information and interactive processingKey words: Multimedia audio features images引言随着技术的迅速发展，图像、视频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式。多媒体通信是信息高速公路建设中的一项关键技术，是多媒体、通信、计算机和网络等相互渗透和发展的产物，它将极大地提高人们的工作效率，改变人们的教育、娱乐等生活方式，是21世纪人们通信的基本方式。第一章多媒体通信技术基础简介多媒体通信的基本概念和特征基本概念媒体是信息表示和传输的载体，是一个重要的概念。ITU-T I .374建议将媒体划分为感觉媒体、表示媒体、显示媒体、存储媒体和传输媒体5类。多媒体数据是指多种式样信息的载体，如文本、图形、图像、声音等数据。其特点主要有以下几点：（1）多媒体数据种类繁多（大多是非结构化数据），不同来源的媒体，具有完全不同的形式和格式；（2）多媒体数据量庞大；（3）多媒体数据具有时间特性和版本概念，如在视频点播系统中必须考虑到媒体间以及媒体内部在时间上的同步关系。由此可知多媒体数据与传统的数值和字符不同，因而其存储结构和存取方式也具有特殊性，描述它的数据结构和数据模型也是有差别的。在这种情况下就产生了一种全新的数据库系统--多媒体数据库系统。多媒体数据库是能够有效实现多媒体数据的存储、读取、检索等功能的数据库系统。它的主要特点是：（1）继承了传统数据库的一些优点，例如数据独立性、利用数据库查询语言进行高层次查询、开发控制、容错技术等；（2）能对具有时空关系的数据进行同步和管理。但是目前对于多媒体数据库的功能以及实现方法还没有达成共识，因而出现了多种形式的媒体数据库，并且实现方法也各不相同。从其总体发展上看，多媒体数据库的数据模型可分为关系数据模型、面向对象的数据模型和超媒体数据模型3类。基于不同数据模型的多媒体数据库管理系统（DBMS）的功能也有很大差别，通常基于关系数据模型的多媒体DBMS可以实现多媒体数据的存取，对多媒体数据对象之间的语义关系、时态关系、空间关系不加处理，所以这部分工作就留给应用程序去完成了。面向对象的数据模型和超媒体数据类型可以支持多媒体数据对象之间的语义关系、时态关系、空间关系的处理，其抽象程度更高，但DBMS的实现也相对复杂。在多媒体通信系统中另一个常出现的词汇是"超媒体"。在出版物中经常会出现表示注解意思的"注"字，由"注"你可以找到与之相关的一段文字或一篇文章。这种由"注"而链接到一段文字或一篇文章的链即称为超链拨，同理，超级链也可以将若干不同媒体链接起来，其集合便称为"超媒体"。多媒体通信的特征多媒体通信技术的发展打破了传统通信的单一媒体、单一电信业务的通信系统格局，反映了通信向高层次发展的一种趋势，是人们对未来社会工作和生活方式的向往。多媒体通信技术是一种综合技术，涉及多媒体技术、计算机技术、通信技术等多个领域。多媒体通信系统必须同时兼有集成性、交互性、同步性3个主要特征。集成性多媒体通信系统的集成性指的是能对内容数据信息、多媒体和超媒体信息、脚本信息和特定的应用信息等4类信息进行存储、传输、处则和显现的能力。（1）内容数据信息（2）信息是以某一种结构的形式存在的，典型的结构有两种：一种是对象构，其中可处理的最小单元为对象(Object)；另一种是文件结构，其中处理的最小单元为文件（File）。多媒体和超媒体信息多媒体和超媒体信息与单媒体信息不一样，它们是结构化的信息，由结构框架和内容数据2部分组成。多媒体和超媒体信息的最小表达形式由两类，一类称为对象，另一类称为文件。（3）脚本信息脚本信息是一组特定的用语意关系联系起来的、结构化的多媒体和超媒体信息，需要提供表示这一组多媒体信息的运作过程和与外部处理模块间的关系。（4）特定的应用信息上述3类信息都是低层信息，可以由标准来定义和表示。特定的应用信息是高层信息，是与应用密切相关的，将随应用场合的不同有很大的不同，它的表示方法是基于上述3类的基础之上的。交互性交互性指的是在通信系统中人与系统之间的相互控制能力。在多媒体通信系统中，交互性有两个方面的内容。一是人机接口，也就是人在使用系统的终端时用户终端向用户提供的操作界面；二是用户终端与系统之间的应用层通信协议。多媒体通信终端的用户对通信的全过程有完备的交互控制能力，这是多媒体通信系统的一个主要特征，也是区别多媒体通信系统与非多媒体通信系统的一个主要准则。同步性同步性指的是在多媒体通信终端上显现的图像、声音和文字均以同步方式工作。如用户要检索一个重要的历史事件的片断，该事件的活动图像或静止图像存放在图像数据库中，其文字叙述和语言说明则是放在其他数据库中。多媒体通信终端通过不同传输途径将所需要的信息从不同的数据库中提取出来，并将这些图像、声音、文字同步起来，构成一个整体的信息呈现在用户面前。多媒体通信系统中的同步性是多媒体通信系统最主要的特征之一，信息的同步与否决定了系统是多媒体系统还是非多种媒体系统。同步可在链路层级、表示层级和应用层级3个层面上实现第二章多媒体音频技术音频技术发展较早，几年前一些技术已经成熟并产品化，甚至进入了家庭，如数字音响。音频技术主要包括四个方面:音频数字化、语音处理、语音合成及语音识别。音频数字化目前是较为成熟的技术，多媒体声卡就是采用此技术而设计的，数字音响也是采用了此技术取代传统的模拟方式而达到了理想的音响效果。音频采样包括两个重要的参数即采样频率和采样数据位数。采样频率即对声音每秒钟采样的次数，人耳听觉上限在20KHz左右，目前常用的采样频率为11KHz，22KHz和44KHz几种。采样频率越高音质越好，存贮数据量越大。CD唱片采样频率为，达到了目前最好的听觉效果。采样数据位数即每个采样点的数据表示范围，目前常用的有8位、12位和16位三种。不同的采样数据位数决定了不同的音质，采样位数越高，存贮数据量越大，音质也越好。CD唱片采用了双声道16位采样，采样频率为，因而达到了专业级水平。音频处理包括范围较广，但主要方面集中在音频压缩上，目前最新的MPEG语音压缩算法可将声音压缩六倍。语音合成是指将正文合成为语言播放，目前国外几种主要语音的合成水平均已到实用阶段，汉语合成几年来也有突飞猛进的发展，实验系统正在运行。在音频技术中难度最大最吸引人的技术当属语音识别，虽然目前只是处于实验研究阶段，但是广阔的应用前景使之一直成为研究关注的热点之一。第三章多媒体图像视频技术3．1视频技术虽然视频技术发展的时间较短，但是产品应用范围已经很大，与MPEG压缩技术结合的产品已开始进入家庭。视频技术包括视频数字化和视频编码技术两个方面。视频数字化是将模拟视频信号经模数转换和彩色空间变换转为计算机可处理的数字信号，使得计算机可以显示和处理视频信号。目前采样格式有两种:Y:U:V4:1:1和Y:U:V4:2:2，前者是早期产品采用的主要格式，Y:U:V4:2:2格式使得色度信号采样增加了一倍，视频数字化后的色彩、清晰度及稳定性有了明显的改善，是下一代产品的发展方向。视频编码技术是将数字化的视频信号经过编码成为电视信号，从而可以录制到录像带中或在电视上播放。对于不同的应用环境有不同的技术可以采用。从低档的游戏机到电视台广播级的编码技术都已成熟。图像压缩技术图像压缩一直是技术热点之一，它的潜在价值相当大，是计算机处理图像和视频以及网络传输的重要基础，目前ISO制订了两个压缩标准即JPEG和MPEG。JPEG是静态图像的压缩标准,适用于连续色调彩色或灰度图像。它包括两部分:一是基于DPCM(空间线性预测)技术的无失真编码，一是基于DCT(离散余弦变换)和哈夫曼编码的有失真算法。前者图像压缩无失真，但是压缩比很小，目前主要应用的是后一种算法，图像有损失但压缩比很大，压缩20倍左右时基本看不出失真。MJPEG是指MotionJPEG，即按照25帧/秒速度使用JPEG算法压缩视频信号，完成动态视频的压缩。MPEG算法是适用于动态视频的压缩算法，它除了对单幅图像进行编码以外还利用图像序列中的相关原则，将帧间的冗余去掉，这样大大提高了图像的压缩比例。通常保持较高的图像质量而压缩比高达100倍。MPEG算法的缺点是压缩算法复杂，实现很困难。第四章多媒体通信系统1、体系结构多媒体通信(multimedia communcations)是在位于不同地理位置的参与者之间召开的一种会议或者进行的交流，通过局域网(LAN)、广域网(WAN)、内联网(intranet)、因特网(Internet)或者电话网来传输压缩的数字图像和声音信号。像电视那样的多目标广播、录象机那样的流式播放、电话会议、电视会议、IP电话、可视电话和IP传真等等都是多媒体通信技术的一些具体的和各有特色的应用。多年来，国际电信联盟(ITU)为公共和私营电信组织制定了许多多媒体计算和通信系统的推荐标准，以促进各国之间的电信合作。ITU的26个(Series A～Z)系列推荐标准中，与多媒体通信关系最密切的7个系列标准如表4-1所示，三种类型的多媒体通信系统的核心技术标准集如表4-1所示。表4-1 ITU系列推荐标准系列名主要内容Series G 传输系统、媒体数字系统和网络Series H 视听和多媒体系统Series I 综合业务数字网(ISDN)Series J 电视、声音节目和其他多媒体信号的传输Series Q 电话交换和控制信号传输法Series T 远程信息处理业务的终端设备2、网关的功能和结构网关是一台功能强大的计算机或者工作站，它担负线路交换网络(如电话网络)和信息包交换网络(如因特网)之间进行实时的双向通信，提供异种网络之间的连通性，它是传统线路交换网络和现代IP网络之的桥梁。IP电话(见" IP电话")的出现允许电话呼叫在信息包交换网络上进行，从而引发一场电信工业的革命。但IP电话在成为主流电话服务的道路上遇到了许多障碍。其中最大的一个问题是在IP电话网络和公众交换电话网络之间缺乏连通性。一个重要的原因是早期的网关存在对IP电话进入主流电话服务的限制。例如，通过网关建立呼叫比较困难，而且需要使用非常规的电话号码；不同的网关之间的兼容性妨碍呼叫的建立；声音的质量比较差、有回音以及延迟时间比较长等。这就促进了开发允许IP和PSTN客户能够相互通信的网关，其中的一个措施就是提高网关的处理能力。低档的网关有1～6个端口，典型地使用高档奔腾处理器的PC机方案，提供媒体处理、呼叫控制和信息包的处理等网关功能。高档网关把网关功能分散到几个处理器来实现，这叫做计算机基电话集成(computer-telephony integration，CTI)平台，可提供100多个端口。网关的基本功能可归纳为三种：(1) 转换协议(translating protocols)：网关作为一个解释器，使不同的网络能够建立联系，例如，允许PSTN和网络相互对话以建立和清除呼叫。(2) 转换信息格式(converting information formats)：不同的网络使用不同的编码方法，网关将对信息进行转换，使异种网络之间能够自由地交换信息，例如声音和电视。(3) 传输信息(transferring information)：负责在不同网络之间传输信息。网关的主要部件包括：(1) 线路交换网络(switched-circuit network，SCN)接口卡，这是一种典型的T1/E1或者叫做PRI ISDN线路接口卡，它们与线路交换网络进行通信。主速率接口(primary rate interface，PRI)由23个B通道和一个64 kb/s的D通道组成，叫做23B＋D，相当于T1线的带宽。(2) 数字信号处理器(digital signal processors，DSP)卡，它执行的任务包括声音信号的压缩和回音的取消等。(3) 网络接口(network interfaces)卡，它用来与网络进行通信，典型的网络卡包括10/100BaseT网络接口卡(network interface cards，NIC)，或者把它们的功能集成到主机板上。(4) 控制处理器(control processor)，它协调其他网关部件的所有活动，这个部件通常是在系统的主机板上。网关的主要软件包括：(1) 执行所有网关基本功能和选择功能的网关软件。例如，网关平台(Gateway Platform)执行转换协议、转换消息格式和传输信息等基本功能，支持声音压缩、协议转换、实时的传真解调/再调制以及执行系列协议。(2) 特定网关的应用软件，它执行自定义的功能以及管理和控制功能。3、会务器的功能和结构会务器(gatekeepers)是用于连接IP网络上的电视会议客户，是电视会议的关键部件之一，许多人把它当作电视会议的"大脑"。它提供授权和验证、保存和维护呼叫记录、执行地址转换而不需要你去记忆IP地址、监视网络、管理带宽以限制同时呼叫的数目从而保证电视会议的质量、以及提供与现存系统的接口。会务器的功能一般都是用软件来实现。会务器的功能分成两个部分：基本功能和选择功能。会务器必须要提供的基本功能包括："地址转换(Address Translation)：使用一种可由注册消息(Registration messages)更新的转换表，把别名地址转换成传输地址(Transport Address)。这个功能在线路交换网络上的电话企图呼叫IP网络上的PC时显得尤其重要，在确定网关地址时也很重要。准入控制(Admissions Control)：使用准入请求/准入确认/准入拒绝ARQ/ARC/ARJ(Admission Request, Confirm and Reject)消息，对访问局域网进行授权。H323标准规定必须要有用来对网络服务进行授权的RAS消息(RAS messages)，RAS是一个注册/准入/状态(Registration/Admission/Status)协议，但它不定义授权存取网络资源的规则或者政策，因此服务提供者需要会务器来干预现存的授权方法。此外，企业管理人员和服务提供者也许想使用他自己的标准来授权，例如，根据订金、信用卡等。带宽控制(Bandwidth Control)：支持RAS带宽消息(RAS bandwidth messages)，即带宽请求/带宽确认/带宽拒绝BRQ/BCF/BRJ(Request, Confirm and Reject)消息，以强制执行带宽控制。至于如何管理则要根据服务提供者或者企业管理人员的政策来确定。在许多情况下，如果在网络或者特定的网关不拥挤的况下，对任何带宽的请求都应该给予满足。区域管理(Zone Management)：用于管理所有已经注册的端点(endpoint)，为它们提供上面介绍的功能。至于确定哪个终端可以注册以及地理或者逻辑区域的组成(单个会务器管理的终端、网关和多点控制单元MCU)则由网络设计人员决定。会务器提供的选择功能包括:呼叫控制信号传输方法(Call Control Signalling)：在中有两种呼叫控制信号传输模型：会务器安排呼叫信号传输模型(Gatekeeper Routed Call Signaling Model)和直接端点呼叫信号传输模型(Direct Endpoint Call Signaling Model)。会务器可根据访问提供者的要求进行选择。呼叫授权(Call Authorization)：会务器可根据服务提供者指定的条件对一个给定的呼叫进行授权或者拒绝。其条件可包括会议时间、预定的服务类型、对受限网关的访问权限或者可用的带宽等。带宽管理(Bandwidth Management)：根据服务提供者指定的带宽分配确定是否有足够的带宽用于呼叫。呼叫管理(Call Management)：提供智能呼叫管理。会务器维护一种呼叫表以指示被呼叫终端是否处于忙状态，并为带宽管理(Bandwidth Management)功能提供信息。会务器的结构会务器通常设计成内外两层，如图4-8所示。会务器的内层叫做核心层，它由执行协议堆的软件和实现多点控制单元MCU(multipoint control unit)功能的软件组成，有的软件开发公司把它叫做会务器核心功能部件。MCU的主要功能是连接多条线路并自动或者在会议主持人的指导下手动交换电视号。会务器的外层由许多应用程序的接口组成，用于连接网络上现有的许多服务。外层软件加分吧！

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

语音识别技术概述

作者：刘钰马艳丽董蓓蓓

摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前，语音识别方面的困难主要表现在：

(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献：

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

tx027数字通信系统数据纠检错方法研究tx028WCDMA移动通信中功率控制的研究与仿真tx029无线网络优化研究tx030移动通信的切换技术的研究tx031基于网络的虚拟仪器测试系统tx032基于GSM模块的车载防盗系统设计 tx033基于GSM短信模块的家庭防盗报警系统tx034电信运营商收入保障系统设计与实现tx035单片机串行通信发射机tx036FDM通信系统基带数据tx037CDMA通信系统中的接入信道部分进行仿真与分析tx038基于连续隐马尔科夫模型的语音识别tx039GPRS无线通讯技术的应用—GPRS短消息接收的开发和实现tx040基于ARQ的数字通信系统纠检错方法tx041数字通信系统数据帧同步设计及可靠性研究tx042GSM扩容工程网络规划设计tx043WCDMA的网络规划及优化tx044WCDMA移动通信中功率控制的研究与仿真tx045可接收数字广播节目的CDMA移动终端的软件设计tx046可接收数字广播节目的GSM移动终端的硬件设计tx047基于Matlab的OFDM系统仿真tx048基于小波变换及其在信号和图象处理中的应用研究tx049小波变换及其在信号和图象处理中的应用研究tx050小灵通基站的开关电源设计tx051数字通信系统数据纠检错方法研究更多最新最全的通信毕业论文设计题目:

基于单片机语音识别论文的研究

单片机类毕业设计 ·电子时钟的设计·全自动节水灌溉系统--硬件部分·数字式温度计的设计·温度监控系统设计·基于单片机的语音提示测温系统的研究·简易无线电遥控系统·数字流量计·基于单片机的全自动洗衣机·水塔智能水位控制系统·温度箱模拟控制系统·超声波测距仪的设计·基于51单片机的LED点阵显示屏系统的设计与实现 16×16点阵显示屏·基于AT89S51单片机的数字电子时钟·基于单片机的步进电机的控制·基于单片机的交流调功器设计·基于单片机的数字电压表的设计·单片机的数字钟设计·智能散热器控制器的设计·单片机打铃系统设计·基于单片机的交通信号灯控制电路设计·基于单片机的电话远程控制家用电器系统设计·基于单片机的安全报警器·基于单片机的八路抢答器设计·基于单片机的超声波测距系统的设计·基于MCS-51数字温度表的设计·电子体温计的设计·基于AT89C51的电话远程控制系统·基于AVR单片机幅度可调的DDS信号发生器·基于单片机的数控稳压电源的设计·基于单片机的室内一氧化碳监测及报警系统的研究·基于单片机的空调温度控制器设计·基于单片机的可编程多功能电子定时器·单片机的数字温度计设计·红外遥控密码锁的设计·基于61单片机的语音识别系统设计·家用可燃气体报警器的设计·基于数字温度计的多点温度检测系统·基于凌阳单片机的语音实时采集系统设计·基于单片机的数字频率计的设计·基于单片机的数字电子钟设计·设施环境中温度测量电路设计·汽车倒车防撞报警器的设计·篮球赛计时记分器·基于单片机的家用智能总线式开关设计·设施环境中湿度检测电路设计·基于单片机的音乐合成器设计·设施环境中二氧化碳检测电路设计·基于单片机的水温控制系统设计·基于单片机的数字温度计的设计·基于单片机的火灾报警器·基于单片机的红外遥控开关设计·基于单片机的电子钟设计·基于单片机的红外遥控电子密码锁·大棚温湿度自动监控系统·基于单片机的电器遥控器的设计·单片机的语音存储与重放的研究·基于单片机的电加热炉温度控制系统设计·红外遥控电源开关·基于单片机的低频信号发生器设计·基于单片机的呼叫系统的设计·基于PIC16F876A单片机的超声波测距仪·基于单片机的密码锁设计·单片机步进电机转速控制器的设计·由AT89C51控制的太阳能热水器·防盗与恒温系统的设计与制作·AT89S52单片机实验系统的开发与应用·基于单片机控制的数字气压计的设计与实现·智能压力传感器系统设计·智能定时器·基于单片机的智能火灾报警系统·基于单片机的电子式转速里程表的设计·公交车汉字显示系统·单片机数字电压表的设计·精密VF转换器与MCS-51单片机的接口技术·基于单片机的居室安全报警系统设计·基于89C2051 IC卡读/写器的设计·PC机与单片机串行通信毕业论文·球赛计时计分器毕业设计论文·松下系列PCL五层电梯控制系统·自动起闭光控窗帘毕业设计论文·单片机控制交通灯系统设计·基于单片机的电子密码锁·基于51单片机的多路温度采集控制系统·点阵电子显示屏--毕业设计·超声波测距仪--毕业设计·单片机对玩具小车的智能控制毕业设计论文·基于单片机控制的电机交流调速毕业设计论文·单片机智能火灾报警器毕业设计论文·基于单片机的锁相频率合成器毕业设计论文·单片机控制的数控电流源毕业设计论文·基于单片机的数字显示温度系统毕业设计论文·单片机串行通信发射部分毕业设计论文·基于单片机控制直流电机调速系统毕业设计论文·单片机控制步进电机毕业设计论文·基于MCS51单片机温度控制毕业设计论文·基于单片机的自行车测速系统设计·单片机汽车倒车测距仪·基于单片机的数字电压表·单片机脉搏测量仪·单片机控制的全自动洗衣机毕业设计论文·基于单片机的电器遥控器设计·单片机控制的微型频率计设计·基于单片机的音乐喷泉控制系统设计·等精度频率计的设计·自行车里程,速度计的设计·基于单片机的数字电压表设计·自行车车速报警系统·大棚仓库温湿度自动控制系统·自动剪板机单片机控制系统设计·单片机电器遥控器的设计·基于单片机技术的自动停车器的设计·基于单片机的金属探测器设计·ATMEIL AT89系列通用单片机编程器的设计·单片机水温控制系统·基于单片机的IC卡智能水表控制系统设计·基于MP3格式的单片机音乐播放系统·节能型电冰箱研究·基于单片机控制的PWM调速系统·交流异步电动机变频调速设计·基于单片机的数字温度计的电路设计·基于Atmel89系列芯片串行编程器设计·基于MCS-51通用开发平台设计·基于单片机的实时时钟·用单片机实现电话远程控制家用电器·中频感应加热电源的设计·家用豆浆机全自动控制装置·基于ATmega16单片机的高炉透气性监测仪表的设计·用单片机控制的多功能门铃·基于8051单片机的数字钟·红外快速检测人体温度装置的设计与研制·三层电梯的单片机控制电路·交通灯89C51控制电路设计·基于单片机的短信收发系统设计 ――硬件设计·大棚温湿度自动控制系统·串行显示的步进电机单片机控制系统·微机型高压电网继电保护系统的设计·基于单片机mega16L的煤气报警器的设计·智能毫伏表的设计·基于单片机的波形发生器设计·基于单片机的电子时钟控制系统·火灾自动报警系统·基于PIC16F74单片机串行通信中继控制器·遥控小汽车的设计研究·基于单片机对氧气浓度检测控制系统·单片机的数字电压表设计·基于单片机的压电智能悬臂梁振动控制系统设计·单片机的打印机的驱动设计·单片机音乐演奏控制器设计·自动选台立体声调频收音机·直流数字电压表的设计·具有红外保护的温度自动控制系统的设计·基于单片机的机械通风控制器设计·音频信号分析仪·单片机波形记录器的设计·公交车站自动报站器的设计·基于单片机的温度测量系统的设计·龙门刨床的可逆直流调速系统的设计·电子秤设计与制作·智能型充电器的电源和显示的设计·80C196MC控制的交流变频调速系统设计·步进电机运行控制器的设计·自动车库门的设计·家庭智能紧急呼救系统的设计·单片机病房呼叫系统设计·电子闹钟设计·电子万年历设计·定时闹钟设计·计算器模拟系统设计·数字电压表设计·数字定时闹钟设计·数字温度计设计·数字音乐盒设计·智能定时闹钟设计·电子风压表设计·8×8LED点阵设计·可编程的LED（16×64）点阵显示屏·无线智能报警系统·温湿度智能测控系统·单片机电量测量与分析系统·多通道数据采集记录系统·单片机控制直流电动机调速系统·步进电动机驱动器设计·DS18B20温度检测控制·6KW电磁采暖炉电气设计·基于电流型逆变器的中频冶炼电气设计·新型电磁开水炉设计·新型洗浴器设计·中频淬火电气控制系统设计·中型电弧炉单片机控制系统设计·基于单片机的电火箱调温器·LCD数字式温度湿度测量计·单片机与计算机USB接口通信·万年历的设计·基于单片机的家电远程控制系统设计·超声波测距器设计·多路温度采集系统设计·交通灯控制系统设计·数字电容表的设计·100路数字抢答器设计·单片机与PC串行通信设计·基于DS18B20温度传感器的数字温度计设计·基于单片机的大棚温、湿度的检测系统·基于MCS-96单片机的双向加力式电子天平·智能型客车超载检测系统的设计·语音控制小汽车控制系统设计·万年历可编程电子钟控电铃·基于单片机的步进电机控制系统·基于MCS-51单片机温控系统设计的电阻炉·基于单片机89C52的啤酒发酵温控系统·基于单片机的温度采集系统设计·PIC单片机在空调中的应用·列车测速报警系统·多点温度数据采集系统的设计·遥控窗帘电路的设计·基于单片机的数字式温度计设计·87C196MC单片机最小系统单板电路模板的设计与开发·基于87C196MC交流调速实验系统软件的设计与开发·基于87C196MC交流调速系统主电路软件的设计与开发·基于80C196MC交流调速实验系统软件的设计与开发·基于单片机的水位控制系统设计·基于单片机的液位检测·基于单片机的定量物料自动配比系统·智能恒压充电器设计·单片机的水温控制系统·基于单片机的车载数字仪表的设计·基于单片机的室温控制系统设计·基于MAX134与单片机的数字万用表设计·基于单片机防盗报警系统的设计·18B20多路温度采集接口模块·基于单片机的乳粉包装称重控制系统设计·基于单片机的户式中央空调器温度测控系统设计·步进电机实现的多轴运动控制系统·IC卡读写系统的单片机实现·单片机电阻炉温度控制系统设计·单片机控制PWM直流可逆调速系统设计·单片机自动找币机械手控制系统设计 ·基于89C52的多通道采集卡的设计·基于AT89C51单片机控制的双闭环直流调速系统设计·单片机控制的PWM直流电机调速系统的设计·基于单片机的电阻炉温度控制系统设计·公交车报站系统的设计·智能多路数据采集系统设计·基于单片机控制的红外防盗报警器的设计·篮球比赛计时器设计·超声波测距仪的设计及其在倒车技术上的应用·汽车侧滑测量系统的设计·自动门控制系统设计·基于51单片机的液晶显示器设计·基于AT89C51单片机的电源切换控制器的设计·基于单片机的普通铣床数控化设计·基于AT89C51单片机的号音自动播放器设计·基于单片机的玻璃管加热控制系统设计·中央冷却水温控制系统·基于单片机的无刷直流电机控制系统设计·锅炉汽包水位控制系统·基于单片机的鱼用投饵机自动控制系统的设计·空调温度控制单元的设计·软胶囊的单片机温度控制（硬件设计）·小型户用风力发电机控制器设计·自动售报机的设计·无线表决系统的设计·微电脑时间控制器的软件设计·基于单片机AT89S52的超声波测距仪的研制·单片机教学实验板——软件设计·基于16位单片机的串口数据采集·单片机太阳能热水器测控仪的设计·基于单片机的简单数字采集系统设计·多电量采集系统的设计与实现·PWM及单片机在按摩机中的应用·基于单片机的简易GPS定位信息显示系统设计·基于单片机的温湿度测量系统设计·基于单片机的电子音乐门铃的设计·开关电源的设计·锅炉控制系统的研究与设计·基于ARM的嵌入式温度控制系统的设计·基于DS18B20的多点温度巡回检测系统的设计·基于单片机的频率计设计·仓储用多点温湿度测量系统·基于单片机的超声波液位测量系统的设计·基于单片机的多功能函数信号发生器设计·噪音检测报警系统的设计与研究·转速、电流双闭环直流调速系统设计·基于单片机程控精密直流稳压电源的设计·模拟电梯的制作·基于AT89C51单片机的步进电机控制系统·超声波倒车雷达系统硬件设计·基于单片机实现汽车报警电路的设计·采用单片机技术的脉冲频率测量设计·智能豆浆机的设计·电话远程监控系统的研究与制作·分立式生活环境表的研究与制作(多功能电子万年历)·高效智能汽车调节器·全自动汽车模型的制作·智能红外遥控暖风机设计·蔬菜公司恒温库微机监控系统·数字触发提升机控制系统·基于单片控制的交流调速设计·基于单片机的多点无线温度监控系统·单片机控制的霓虹灯控制器·基于单片机的数码录音与播放系统·全自动洗衣机控制器·空调器微电脑控制系统·自动存包柜的设计·基于单片机的数字钟设计·电子万年历·多路数据采集系统的设计·基于单片机步进电机控制系统设计·基于单片机的鸡雏恒温孵化器的设计·基于FPGA和单片机的多功能等精度频率计·基于单片机的水温控制系统·基于单片机的智能电子负载系统设计·智能电话报警器·基于ADE7758的电能监测系统的设计·基于单片机PIC16F877的环境监测系统的设计·基于单片机控制动态扫描文字显示系统的设计·基于单片机控制发生的数字音乐盒·基于单片机控制文字的显示·基于单片机控制音乐门铃·智能电子密码锁设计·单片机电铃系统设计·单片机演奏音乐歌曲装置的设计·大功率电器智能识别与用电安全控制器的设计·单片机交通灯控制系统的设计·智能立体仓库系统的设计·智能火灾报警监测系统·基于单片机的多点温度检测系统·单片机定时闹钟设计·湿度传感器单片机检测电路制作·智能小车自动寻址设计--小车悬挂运动控制系统·单片机呼叫系统的设计·基于单片机的带智能自动化的红外遥控小车·基于单片机AT89C51的语音温度计的设计·基于TMS320VC33DSP开发板制作·16×16点阵LED电子显示屏的设计·单片机实验教学平台分析·基于USB总线的设计与开发·基于单片机设计的自动售货机系统设计·数字温度计的设计·生产流水线产品产量统计显示系统·水位报警显时控制系统的设计·红外遥控电子密码锁的设计·基于MCU温控智能风扇控制系统的设计·数字电容测量仪的设计·基于单片机的遥控器的设计·200电话卡代拨器的设计·数字式心电信号发生器硬件设计及波形输出实现·全氢罩式退火炉温度控制系统·单片机控制单闭环直流电动机的调速控制系统·单片机电加热炉温度控制系统·单片机大型建筑火灾监控系统·点阵式汉字电子显示屏的设计与制作·基于AT89C51的路灯控制系统设计·基于AT89C51的宽范围高精度的电机转速测量系统·基于DSP的电机控制·汽车倒车雷达·基于光纤的汽车CAN总线研究·基于AT89C51SND1C的MP3播放器·多功能频率计的设计·基于单片机的数字直流调速系统设计·单片机的智能电源管理系统·基于单片机的多功能智能小车设计·汽车防撞主控系统设计·单片机控制电梯系统的设计·电子密码锁的电路设计与制作·高精度超声波传感器信号调理电路的设计·数字电子钟的设计与制作·银行自动报警系统

以C8051F020单片机为核心控制器，控制语音芯片实现声音的输入输出。运用C语言编写系统程序，进行系统调试，取得了满意的结果。论文详细的介绍了语音技术的实现、硬件电路及软件的设计。其中软件设计采用模块化设计方法，这样便于程序的修改和移植。

随着时代的发展，网络通信已广泛地应用于政治、军事，经济及科学等各个领域，它改变了传统的事务处理方式，对社会的进步和发展起着很大的推动作用。下面我给大家带来通信工程专业毕业论文题目_通信专业论文怎么选题，希望能帮助到大家!

通信工程毕业论文题目

1、通信工程项目管理系统集成服务浅探[J]

2、试述我国通信工程发展现状与前景[J]

3、网络传输技术在通信工程中的应用探析[J]

4、通信工程中多网融合技术的应用问题探析[J]

5、探究有线传输技术在通信工程中的应用及发展方向[J]

6、探讨通信工程项目的网络优化[J]

7、应用型通信工程专业计算机类课程建设研究[J]

8、结合3G/4G网络与GPS定位技术实现通信工程现场监理[J]

9、通信工程的风险管理探讨[J]

10、如何解决通信工程管理中的问题[J]

11、通信工程设计单位标准化管理研究[J]

12、传输技术在通信工程中的应用解析[J]

13、通信工程施工管理模式的创新研究[J]

14、通信工程中有线传输技术的应用及改进[J]

15、通信工程项目中的风险管理与控制策略研究[J]

16、探析通信工程中传输技术的广泛应用[J]

17、浅谈通信工程项目的质量管理[J]

18、项目管理方法在移动通信工程管理中的应用研究[J]

19、通信工程项目管理研究[J]

20、通信工程光缆施工的质量控制探讨[J]

21、试论在通信工程施工过程中信息化管理的应用[J]

22、浅谈传输技术在通信工程中的应用及发展[J]

23、浅谈通信工程技术传输的有效管理策略[J]

24、信息通信工程中传输技术的有效应用[J]

25、铁路通信工程中无线接入技术的应用探究[J]

26、试论通信工程的特点及发展现状与前景[J]

27、浅谈通信工程发展前景[J]

28、以华为公司为例探析通信工程技术的社会经济价值[J]

29、传输技术在通信工程中的应用与发展趋势[J]

30、通信工程建设进度控制研究[J]

31、关于多网融合在通信工程中的应用分析[J]

32、基于通信工程传输技术的应用研究[J]

33、强化通信工程安全管理的对策[J]

34、通信工程存在的经济问题和发展分析[J]

35、通信工程管理在项目中的应用[J]

36、探讨通信工程项目的网络优化方式[J]

37、传输技术对通信工程的作用[J]

38、浅谈通信工程传输技术的应用[J]

39、通信工程中有线传输技术的应用及改进[J]

40、刍议通信工程传输技术的现状与未来发展[J]

41、浅析我国通信工程发展现状与展望[J]

42、通信工程项目管理中关键点的标准化研究[J]

43、软交换技术在通信工程中的应用及发展方向[J]

44、探究通信工程专业学生就业现状及对策研究[J]

45、如何提高通信工程监理企业的竞争力[J]

46、通信工程监理企业竞争力探析[J]

47、浅谈通信工程信息技术[J]

48、通信工程中土建工程质量控制探讨[J]

49、通信工程项目管理中系统化、集成化实现的路径分析[J]

50、通信工程中有线传输技术的改进研究[J]

移动通信毕业论文题目

1、大数据分析在移动通信网络优化中的应用研究

2、典型移动通信基站电磁环境影响模型化研究

3、高速移动通信场景下基于LTE-A中继系统的资源调度关键技术研究

4、基于专利信息分析的我国4G移动通信技术发展研究

5、移动通信基础设施建设中多方合作研究

6、移动通信基站管理系统的设计与实现

7、“营改增”对内蒙古移动通信公司财务管理的影响及对策研究

8、低轨宽带卫星移动通信系统OFDM传输技术研究

9、雷电脉冲对移动通信基站影响的研究

10、平流层CDMA移动通信蜂窝网的性能研究

11、B3G/4G系统中的无线资源分配的研究

12、下一代移动通信系统中跨层资源分配研究

13、基于OFDM的GEO卫星移动通信系统关键技术研究

14、下一代移动通信系统中的关键传输技术研究

15、基于SCP的海峡两岸移动通信产业比较研究

16、多场景下移动通信系统业务承载性能研究

17、未来移动通信系统资源分配与调度策略研究

18、高速铁路移动通信系统性能研究

19、下一代移动通信网络中的无线资源管理与调度策略研究

20、下一代卫星移动通信系统关键技术研究

21、混能供电移动通信网络的节能方法研究

22、移动通信数据挖掘关键应用技术研究

23、移动通信系统中的认证和隐私保护协议研究

24、基于移动通信定位数据的交通信息提取及分析方法研究

25、电信运营商在移动通信标准发展中的产业作用关系研究

26、天津移动通信市场非线性预测及面向3G的发展策略研究

27、移动通信产业链创新系统研究

28、移动通信智能天线关键技术研究

29、移动通信运营商产品品牌文化研究

30、宽带移动通信系统资源调度和干扰管理的研究

31、未来移动通信基站体系结构--定性理论、方法与实践

32、移动通信系统中天线的分析与设计

33、基于客户的移动通信品牌资产模型及影响机理研究

34、中国移动通信业价格竞争行为研究

35、具有NFC功能的移动通信终端电路设计

36、具有电子支付功能的移动通信终端软件设计

37、移动通信服务业顾客满意度及忠诚度影响因素比较研究

38、移动通信企业市场营销成本管理研究

39、移动通信无线网络建设项目的质量管理研究

40、卫星移动通信系统编码协作技术

通信工程专业论文题目

1、基于61单片机的语音识别系统设计

2、红外遥控密码锁的设计

3、简易无线对讲机电路设计

4、基于单片机的数字温度计的设计

5、甲醛气体浓度检测与报警电路的设计

6、基于单片机的水温控制系统设计

7、设施环境中二氧化碳检测电路设计

8、基于单片机的音乐合成器设计

9、设施环境中湿度检测电路设计

10、基于单片机的家用智能总线式开关设计

11、篮球赛计时记分器

12、汽车倒车防撞报警器的设计

13、设施环境中温度测量电路设计

14、等脉冲频率调制的原理与应用

15、基于单片机的电加热炉温

16、病房呼叫系统

17、单片机打铃系统设计

18、智能散热器控制器的设计

19、电子体温计的设计

20、基于FPGA音频信号处理系统的设计

21、基于MCS-51数字温度表的设计

22、基于SPCE061A的语音控制小车设计

23、基于VHDL的智能交通控制系统

24、基于VHDL语言的数字密码锁控制电路的设计

25、基于单片机的超声波测距系统的设计

26、基于单片机的八路抢答器设计

27、基于单片机的安全报警器

28、基于SPCE061A的易燃易爆气体监测仪设计

29、基于CPLD的LCD显示设计

30、基于单片机的电话远程控制家用电器系统设计

31、基于单片机的交通信号灯控制电路设计

32、单片机的数字温度计设计

33、基于单片机的可编程多功能电子定时器

34、基于单片机的空调温度控制器设计

35、数字人体心率检测仪的设计

36、基于单片机的室内一氧化碳监测及报警系统的研究

37、基于单片机的数控稳压电源的设计

38、原油含水率检测电路设计

39、基于AVR单片机幅度可调的DDS信号发生器

40、四路数字抢答器设计

41、单色显示屏的设计

42、基于CPLD直流电机控制系统的设计

43、基于DDS的频率特性测试仪设计

44、基于EDA的计算器的设计

45、基于EDA技术的数字电子钟设计

46、基于EDA技术的智力竞赛抢答器的设计

47、基于FPGA的18路智力竞赛电子抢答器设计

48、基于USB接口的数据采集系统设计与实现

49、基于单片机的简易智能小车的设计

50、基于单片机的脉象信号采集系统设计

51、一种斩控式交流电子调压器设计

52、通信用开关电源的设计

53、鸡舍灯光控制器

54、三相电机的保护控制系统的分析与研究

55、信号高精度测频方法设计

56、高精度电容电感测量系统设计

57、虚拟信号发生器设计和远程实现

58、脉冲调宽型伺服放大器的设计

59、超声波测距语音提示系统的研究

60、电表智能管理装置的设计

通信工程专业毕业论文题目相关文章：

★ 通信工程毕业论文题目

★ 通信工程毕业论文选题

★ 通信工程专业毕业论文

★ 通信工程的毕业论文范例(2)

★ 通信工程的毕业论文(2)

★ 通信工程的毕业论文参考范文

★ 通信工程方面毕业论文(2)

★ 通信工程的毕业论文优秀范文(2)

★ 通信工程本科毕业论文

语音情绪识别的研究论文

情绪研究理论与方法论文参考文献参考文献：［1］乔建中。情绪研究：理论与方法［M］。南京：南京师范大学出版社，2003. ［2］叶素珍，曾振华。情绪管理与心理健康［M］。北京：北京大学出版社，2007. ［3］蔡秀玲，杨智馨。情绪管理［M］。合肥：安徽人民出版社，2001. ［4］孟昭兰。情绪心理学［M］。北京：北京大学出版社，2005请继续阅读相关推荐：毕业论文应届生求职毕业论文范文查看下载查看的论文开题报告查阅参考论文提纲查阅更多的毕业论文致谢相关毕业论文格式查阅更多论文答辩 ;

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。任务分类和应用根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition)，关键词识别（或称关键词检出，keyword spotting)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。另外，根据语音设备和通道，可以分为桌面（PC）语音识别、电话语音识别和嵌入式设备（手机、PDA等）语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。前端前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自相关法（德宾Durbin法）、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。* 倒谱系数CEP：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱（LPCCEP），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。* Mel倒谱系数MFCC和感知线性预测PLP：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模：协同发音，指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为Bi- Phone，考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。N-Gram：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。搜索连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。Viterbi：基于动态规划的Viterbi算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下，同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别，从而使这一算法成为语音识别搜索的基本策略。由于语音识别对当前时间点之后的情况无法预测，基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性，同一时刻的各条路径对应于同样的观察序列，因而具有可比性，束Beam搜索在每一时刻只保留概率最大的前若干条路径，大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索：为在搜索中利用各种知识源，通常要进行多遍搜索，第一遍使用代价低的知识源，产生一个候选列表或词候选网格，在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典，这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解，往往要利用一些代价更高的知识源，如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析，进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。N-best搜索产生一个候选列表，在每个节点要保留N条最好的路径，会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选，但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径，保留k条。词候选网格以一种更紧凑的方式给出多候选，对N-best搜索算法作相应改动后可以得到生成候选网格的算法。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后，搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中，因而可以使用启发式的A算法进行后向搜索，经济地搜索出N条候选。系统实现语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。自适应与强健性语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性，是要提高系统克服这些因素影响的能力，使系统在不同的应用环境、条件下性能稳定；自适应的目的，是根据不同的影响来源，自动地、有针对性地对系统进行调整，在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法（以下称特征方法）和模型调整的方法（以下称模型方法）分为两类。前者需要寻找更好的、高鲁棒性的特征参数，或是在现有的特征参数基础上，加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关（SI）模型，从而使其成为说话人自适应（SA）模型。说话人自适应的特征方法有说话人规一化和说话人子空间法，模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声，包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征，模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波，模型方法有倒谱平移。微软语音识别引擎微软在office和vista中都应用了自己开发的语音识别引擎，微软语音识别引擎的使用是完全免费的，所以产生了许多基于微软语音识别引擎开发的语音识别应用软件，例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。语音识别系统的性能指标语音识别系统的性能指标主要有四项。①词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。②说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。③训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数的多少。④正确识别率：平均正确识别的百分数，它与前面三个指标有关。小结以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点，针对英语提出的技术在汉语中如何使用也是一个重要的研究课题，而四声等汉语本身特有的问题也有待解决。

论文摘要：小学英语教师的素养直接关系到英语基础教育的成效。本文针对如何提高小学英语教师的语音素养，从语音理论、节奏感和语调三方面进行了论述。一、语音在小学英语教育中的重要性语言是有声的。任何语言都是先有声音后有文字，任何掌握语言的过程都是先会听说后会读写。从牙牙学语到入学之前，人的唯一语言实践是听说（通过模仿）。英语也是如此，语音作为学习英语的基础，同时也是其重要的表现形式，在英语教学中的重要地位自然是不言而喻的。一些专家研究了儿童学习外语的规律，经验表明，八岁左右是学习外语的最佳期，在这个年龄段开始外语学习，不与母语学习冲突，效率较高。而且小学生有敏锐的听觉、善于模仿的特点，这成就了他们学好语音的优势。在这形成正确语音语调的关键时期，教师的语音和语调会直接影响到学生的发音。而且小学英语的教学重点是培养学生用“语言进行交流的能力”，①因此小学英语教师的口语自然流利，语音、语调纯正地道尤其重要。教师职业要求教师的专业知识要远远超出教科书的知识量，何况英语教学是一门实践性很强的工具课，只有英语教师本人具有正确的语音、语调和很强的口语表达能力，才能自然流畅地用英语组织课堂教学完成教学工作。二、教育部对小学英语教师的要求教育部决定：从2001年秋季开始，全国城市和县城小学逐步设英语课程；2002年秋季，乡镇所在地小学逐步开设英语课程。小学开设英语课程的起始年级一般为三年级。《小学英语课程教学基本要求（试行）》中明确规定：根据小学生的生理和心理特点以及发展需求，小学阶段英语课程的目的是激发学生学习英语的兴趣，培养他们英语学习的积极态度，使他们建立初步的学习英语的自信心；培养学生一定的语感和良好的语音、语调基础；使他们形成初步用英语进行简单日常交流的能力，为进一步学习打下基础。由此可见，小学英语教师除了应具有一般教师的素质即个性品质、教学能力、事业心和教育理论与教学研究能力外，还应具有较高水准的语言能力，既有深厚扎实的语音、语调、词汇、语法等语言知识，还必须熟练掌握听、说、读、写、译的教学技能，特别是口语能力。三、小学英语教师要具备的语音素养（一）语音理论素养《小学英语课程教学基本要求（试行）》中规定：防止和纠正以教授语音和语法等语言知识为主的做法，把教学重点放在培养学生用英语进行交流的能力和兴趣上。②所以小学英语教师是不能够在课堂上直接讲授语音理论的，但是如果教师本身对这门学科没有很透彻地理解和掌握的话，又怎么能够进行教学实践？怎么能够教学生念好每一个词、读好每一句话呢？所以，对于教学中出现的每一个语言现象，教师应该做到了然于胸。比如：对于有些难发的元音，长音要足够长，圆唇音要足够圆，扁唇音要足够扁，还要注意双元音中间的滑流音，等等。教师要利用自己掌握的正确的英语语音理论，给学生做出正确的示范，让学生看清楚口型、听清楚发音，从这两个方面来模仿，以便学生形成良好的英语语音基础。再如发双元音时，会有唇形变化，像发〔au〕音时，嘴唇是先张大然后缩回变圆唇且唇稍向前突出。还有辅音，英语中的辅音很容易受到送气的强弱和用力的大小的影响，这尤其需要教师能够很准确地给学生做出示范，帮助他们辨别其中容易混淆的或者出问题的音。比如〔w〕和〔v〕，发这两个音的时候都要用力，但是前者是圆唇，后者则是上齿轻触下唇，略微露出门牙。再比如，由于受到地方音的影响，我国南方地区的学生易将〔l〕和〔n〕搞混，所以就会将life〔laif〕读成knife〔naif〕。另外，很多学习者都知道当定冠词the置于元音字母开头的单词前时，其发音由〔?奁?藜〕变音为〔?奁i〕，但是深入学习后就知道，实际上在两个词之间还要添加一个〔j〕音，像是the earth的音就是〔?奁ij?谡?藜?蘼θ〕，in the evening的音就是〔in?奁ij?谡i?蘼vni?耷〕。这些现象虽然对词义和使用没有十分的影响，但是对于学好英语却是至关重要的。（二）教学中注意学生节奏感的培养我们在说话或朗读一个句子时会发现一个有趣的现象：在每一句话里所出现的一系列音节都有轻重、长短、高低、快慢所自然形成的一种有规律的交替现象。这种现象被称为节奏(rhythm)。③ 例如：He ?谡plays ?谡basketball ?谡every ?谡morning. 1 23 4 56 7 89 这句话汇总有九个音节，其中第2、3、6、8是重读音节，其它的是非重读音节。朗读中，重读音节要念得长些、重些、慢些，非重读音节要念得相对短些、轻些、快些，因此声音就有响亮清楚的差别，这样自然形成的奏中轻重、高低、快慢的交替就构成了英语的基本节奏。英语是一种节奏感很强的语言，英美人在说英语的过程中很讲究节奏和韵律。小学英语的教学重点是培养学生用语言进行交流的能力，就是培养学生说的能力。④这种绝对不是只把单个的音或词准确地念出来，而是要将单个的词连成句，再顺畅流利地表达出来，并进而讲求节奏。教师可以利用小学生模仿能力强的特点，从小培养他们的节奏感。英语的语句，总是由节奏群(rhythm group)组成的。节奏群是指人们在说话或朗诵时把音节合成一组一组地念出来。这样一组一组的音节群就被称为节奏群。例如上面的例句就是由四个节奏群所组成，每个节奏群里都有一个中读音节作为主体。例如，第一个节奏群he ?谡plays中的〔pleiz〕，第二个节奏群basketball中的〔?谡b?藁s〕，第三个节奏群every中的〔?谡ev〕，第四个节奏群morning中的〔?谡m?蘅?蘼〕。重读音节是构成节奏群的主体和基础，它跟非重读音节是交替出现的，而且重读音节之间的时距大致是相等的。英语句子由一个或者几个节奏群构成，每个节奏群的时值相当于音乐中的一个节拍，教师可以用击掌或者用尺子敲打桌子等一些体现节拍的手段，让学生有节奏地进行练习。以下是常见的英语句子节奏类型：《英语课程标准》指出:学生在英语基础教育阶段应该学习和掌握包括语音、词汇、语法、功能和话题等五个方面的基础知识。语言有三大要素:语音、词汇和语法，其中语音是最基本的因素。语音是学好语言的基础，语音教学是语言教学的重要内容之一。自然规范的语音、语调将为有效的口语交际打下良好的基础.在小学英语教学中，教师应特别重视语音教学。语音教学的目的就是要教会学生正确、流利的发音，以达到能正确地听懂别人的谈话和通过说来表情达意，进而促进读和写的能力的发展。我在小学英语教学实践中发现，语音教学的效果不尽如人意。一些学生没有学好语音，不会诵读，也就难以朗读单词和句子。学生学习英语出现两极分化、掉队，其中一个重要原因就是学生未学好语音，没有过好语音关。因为学生语音未学好，发音不准，听音能力差，不仅学不会口语，甚至连听课、记单词、读句子都有困难，从而对英语学习不感兴趣，产生畏难情绪，甚至放弃学习，丧失学习英语的兴趣和信心。如何提高语音教学的成效，让学生听得懂、说得出、用得好呢?对于小学英语教学来说，课堂是教学的主阵地，帮助学生形成有效的英语语音学习策略是每位英语教师的职责，也是新课程标准所制定的学习目标之一。教师应根据新课程标准中的二级语音学习目标和学习策略目标来研究如何搞好语音教学以及如何引导学生形成有效的语音学习策略，使其掌握正确的发音要领，养成正确的发音习惯，学会规范的发音，发展自主学习语言的能力。以下是我在小学英语课程教学中采用的一些语音教学策略:1、培养意识策略培养学生的语音意识是帮助学生形成有效的语音学习策略的首要条件。小学生在学习英语时，已经掌握了汉语的语音，形成了汉语语音的习惯，当他们初学英语语音时往往按汉语的发音去听和发出英语语音。这时，教师在教学过程中就要有意识地分析比较，培养他们英语语音的意识，使他们将自己的发音纳入英语语音系统，从而正确地感知和复现外语语音。例如，有位学生在初学英语时用汉字注单词的音，我发现这一情况后没有立即在课堂上当着全班学生的面批评他(怕产生负面影响，引起其他同学的效仿)，而是在课后用正确的语音语调和他用汉字注的音分别把单词读了一遍，他听了以后自己先笑了起来(因为听起来很怪)，立刻用橡皮把汉字擦去了。从那以后他课上、课下总是在认真地听、努力地记，最终模仿出了一口纯正的语音语调。2、模仿练习策略新课程标准指出:在英语教学起始阶段，语音教学主要应通过模仿来进行，教师应提供大量听音、模仿和实践的机会，帮助学生养成良好的发音习惯。学习英语发音，最基本、最有效的方法是模仿。特别是小学生，他们年龄小，模仿能力强，你怎么教，他就怎么学，不需要作任何讲解。模仿练习一般分三个步骤。 ①听音。听音是学习语音的第一步。应该让学生多听音，教师何以提供原声语音资料，使他们接触和学习地道的发音。当然课堂上听的最多的是教师的示范发音。这就要求教师本身发音要准确、规范。只有在听清楚、听准确的基础上，才能使学生模仿，也才能模仿得对，模仿得准确。在教学中，为了让一个班四、五十个学生都能听清、听准，我经常是“走着教语音”，有时在教室前面说一遍，然后走到教室后面让学生转过身再说一遍。这样使每一个学生都能听清，为正确模仿发音打下基础。 ②模仿。模仿时可采取集体模仿和个别模仿。集体模仿主要是训练学生的发音器官，增加学生的模仿机会。个别模仿可以检查学生是否模仿有错，给予及时的帮助纠正。 ③仿说。在听音、模仿的基础上可以进行仿说，这可以通过朗读、日常的听说等练习来进行，逐渐培养学生正确的语音语调。 3、总结归纳策略记忆包括识记、保持、再认和回忆四个过程。小学生的记忆特点是“学得快，忘得快”，这就要求教师要善于启发和引导学生在听和模仿的过程中注意发现和总结、归纳语音规律，帮助学生记忆，以提高学习效率。在教学中，我总是通过开展各种活动去帮助学生掌握字母组合与音素发音的规律，培养学生遇到生词就能根据其拼写正确发音的能力，从而帮助学生形成有效的语音学习策略。例如在外研版教材第八册第五单元第五课Sounds教学中，为了检查学生是否能准确听懂、判断出[ai] [au] [)i]三个双元音，我设计了三首小诗，让学生欣赏，判断小诗含有哪个音并说出，学生非常感兴趣，听的非常认真，结果他们不仅能说出所含音，还能根据读音规律读出小诗，超出了预期的效果。4、整合资源策略新课程标准指出:语音教学应注重语义与语境、语调与语流相结合，不要一味追求单音的准确性。还指出:英语有不同的口音，如:英国口音、美国口音等。教学中，应让学生在基本掌握一种口音的基础上，适当接触不同的口音，为他们发展交际能力打下基础。这就要求教师在语音教学中要根据学生的心理特点和语言学习规律，寻找符合小学生年龄特点的语音材料。教师将这些资料重新整合，注重语义与语境、语调与语流相结合，设计成适合小学生年龄特点的语音训练活动，帮助学生练习语音。在教学中，我通过说 chant和绕口令，帮助学生练习单音音素的发音及重音;通过教唱英文歌曲、学说歌谣和顺口溜，练习连读、节奏和韵律。这样就能将枯燥的、机械的听音和模仿练习变为有趣的、有意义的活动，充分调动学生学习语音的积极性，使他们养成乐于模仿和善于模仿、善于运用的良好习惯和学习策略。语音是语言的基础，是语言的物质外壳，是口语的基本物质单位。而学习策略是学生成功学习的保证。帮助学生有效地使用学习策略，不仅有利于他们把握学习的方向、采用科学的途径、提高学习效率，而且还有助于他们形成自主学习的能力，为终身学习奠定基础。

索引序列
关于语音识别的文献论文
语音识别论文参考文献
语音识别毕业论文
基于单片机语音识别论文的研究
语音情绪识别的研究论文
返回顶部

关于语音识别的文献论文