关于语音合成研究的论文

3个回答默认排序

默认排序

按时间排序

光头强329

已采纳

论文摘要：小学英语教师的素养直接关系到英语基础教育的成效。本文针对如何提高小学英语教师的语音素养，从语音理论、节奏感和语调三方面进行了论述。一、语音在小学英语教育中的重要性语言是有声的。任何语言都是先有声音后有文字，任何掌握语言的过程都是先会听说后会读写。从牙牙学语到入学之前，人的唯一语言实践是听说（通过模仿）。英语也是如此，语音作为学习英语的基础，同时也是其重要的表现形式，在英语教学中的重要地位自然是不言而喻的。一些专家研究了儿童学习外语的规律，经验表明，八岁左右是学习外语的最佳期，在这个年龄段开始外语学习，不与母语学习冲突，效率较高。而且小学生有敏锐的听觉、善于模仿的特点，这成就了他们学好语音的优势。在这形成正确语音语调的关键时期，教师的语音和语调会直接影响到学生的发音。而且小学英语的教学重点是培养学生用“语言进行交流的能力”，①因此小学英语教师的口语自然流利，语音、语调纯正地道尤其重要。教师职业要求教师的专业知识要远远超出教科书的知识量，何况英语教学是一门实践性很强的工具课，只有英语教师本人具有正确的语音、语调和很强的口语表达能力，才能自然流畅地用英语组织课堂教学完成教学工作。二、教育部对小学英语教师的要求教育部决定：从2001年秋季开始，全国城市和县城小学逐步设英语课程；2002年秋季，乡镇所在地小学逐步开设英语课程。小学开设英语课程的起始年级一般为三年级。《小学英语课程教学基本要求（试行）》中明确规定：根据小学生的生理和心理特点以及发展需求，小学阶段英语课程的目的是激发学生学习英语的兴趣，培养他们英语学习的积极态度，使他们建立初步的学习英语的自信心；培养学生一定的语感和良好的语音、语调基础；使他们形成初步用英语进行简单日常交流的能力，为进一步学习打下基础。由此可见，小学英语教师除了应具有一般教师的素质即个性品质、教学能力、事业心和教育理论与教学研究能力外，还应具有较高水准的语言能力，既有深厚扎实的语音、语调、词汇、语法等语言知识，还必须熟练掌握听、说、读、写、译的教学技能，特别是口语能力。三、小学英语教师要具备的语音素养（一）语音理论素养《小学英语课程教学基本要求（试行）》中规定：防止和纠正以教授语音和语法等语言知识为主的做法，把教学重点放在培养学生用英语进行交流的能力和兴趣上。②所以小学英语教师是不能够在课堂上直接讲授语音理论的，但是如果教师本身对这门学科没有很透彻地理解和掌握的话，又怎么能够进行教学实践？怎么能够教学生念好每一个词、读好每一句话呢？所以，对于教学中出现的每一个语言现象，教师应该做到了然于胸。比如：对于有些难发的元音，长音要足够长，圆唇音要足够圆，扁唇音要足够扁，还要注意双元音中间的滑流音，等等。教师要利用自己掌握的正确的英语语音理论，给学生做出正确的示范，让学生看清楚口型、听清楚发音，从这两个方面来模仿，以便学生形成良好的英语语音基础。再如发双元音时，会有唇形变化，像发〔au〕音时，嘴唇是先张大然后缩回变圆唇且唇稍向前突出。还有辅音，英语中的辅音很容易受到送气的强弱和用力的大小的影响，这尤其需要教师能够很准确地给学生做出示范，帮助他们辨别其中容易混淆的或者出问题的音。比如〔w〕和〔v〕，发这两个音的时候都要用力，但是前者是圆唇，后者则是上齿轻触下唇，略微露出门牙。再比如，由于受到地方音的影响，我国南方地区的学生易将〔l〕和〔n〕搞混，所以就会将life〔laif〕读成knife〔naif〕。另外，很多学习者都知道当定冠词the置于元音字母开头的单词前时，其发音由〔?奁?藜〕变音为〔?奁i〕，但是深入学习后就知道，实际上在两个词之间还要添加一个〔j〕音，像是the earth的音就是〔?奁ij?谡?藜?蘼θ〕，in the evening的音就是〔in?奁ij?谡i?蘼vni?耷〕。这些现象虽然对词义和使用没有十分的影响，但是对于学好英语却是至关重要的。（二）教学中注意学生节奏感的培养我们在说话或朗读一个句子时会发现一个有趣的现象：在每一句话里所出现的一系列音节都有轻重、长短、高低、快慢所自然形成的一种有规律的交替现象。这种现象被称为节奏(rhythm)。③ 例如：He ?谡plays ?谡basketball ?谡every ?谡morning. 1 23 4 56 7 89 这句话汇总有九个音节，其中第2、3、6、8是重读音节，其它的是非重读音节。朗读中，重读音节要念得长些、重些、慢些，非重读音节要念得相对短些、轻些、快些，因此声音就有响亮清楚的差别，这样自然形成的奏中轻重、高低、快慢的交替就构成了英语的基本节奏。英语是一种节奏感很强的语言，英美人在说英语的过程中很讲究节奏和韵律。小学英语的教学重点是培养学生用语言进行交流的能力，就是培养学生说的能力。④这种绝对不是只把单个的音或词准确地念出来，而是要将单个的词连成句，再顺畅流利地表达出来，并进而讲求节奏。教师可以利用小学生模仿能力强的特点，从小培养他们的节奏感。英语的语句，总是由节奏群(rhythm group)组成的。节奏群是指人们在说话或朗诵时把音节合成一组一组地念出来。这样一组一组的音节群就被称为节奏群。例如上面的例句就是由四个节奏群所组成，每个节奏群里都有一个中读音节作为主体。例如，第一个节奏群he ?谡plays中的〔pleiz〕，第二个节奏群basketball中的〔?谡b?藁s〕，第三个节奏群every中的〔?谡ev〕，第四个节奏群morning中的〔?谡m?蘅?蘼〕。重读音节是构成节奏群的主体和基础，它跟非重读音节是交替出现的，而且重读音节之间的时距大致是相等的。英语句子由一个或者几个节奏群构成，每个节奏群的时值相当于音乐中的一个节拍，教师可以用击掌或者用尺子敲打桌子等一些体现节拍的手段，让学生有节奏地进行练习。以下是常见的英语句子节奏类型：《英语课程标准》指出:学生在英语基础教育阶段应该学习和掌握包括语音、词汇、语法、功能和话题等五个方面的基础知识。语言有三大要素:语音、词汇和语法，其中语音是最基本的因素。语音是学好语言的基础，语音教学是语言教学的重要内容之一。自然规范的语音、语调将为有效的口语交际打下良好的基础.在小学英语教学中，教师应特别重视语音教学。语音教学的目的就是要教会学生正确、流利的发音，以达到能正确地听懂别人的谈话和通过说来表情达意，进而促进读和写的能力的发展。我在小学英语教学实践中发现，语音教学的效果不尽如人意。一些学生没有学好语音，不会诵读，也就难以朗读单词和句子。学生学习英语出现两极分化、掉队，其中一个重要原因就是学生未学好语音，没有过好语音关。因为学生语音未学好，发音不准，听音能力差，不仅学不会口语，甚至连听课、记单词、读句子都有困难，从而对英语学习不感兴趣，产生畏难情绪，甚至放弃学习，丧失学习英语的兴趣和信心。如何提高语音教学的成效，让学生听得懂、说得出、用得好呢?对于小学英语教学来说，课堂是教学的主阵地，帮助学生形成有效的英语语音学习策略是每位英语教师的职责，也是新课程标准所制定的学习目标之一。教师应根据新课程标准中的二级语音学习目标和学习策略目标来研究如何搞好语音教学以及如何引导学生形成有效的语音学习策略，使其掌握正确的发音要领，养成正确的发音习惯，学会规范的发音，发展自主学习语言的能力。以下是我在小学英语课程教学中采用的一些语音教学策略:1、培养意识策略培养学生的语音意识是帮助学生形成有效的语音学习策略的首要条件。小学生在学习英语时，已经掌握了汉语的语音，形成了汉语语音的习惯，当他们初学英语语音时往往按汉语的发音去听和发出英语语音。这时，教师在教学过程中就要有意识地分析比较，培养他们英语语音的意识，使他们将自己的发音纳入英语语音系统，从而正确地感知和复现外语语音。例如，有位学生在初学英语时用汉字注单词的音，我发现这一情况后没有立即在课堂上当着全班学生的面批评他(怕产生负面影响，引起其他同学的效仿)，而是在课后用正确的语音语调和他用汉字注的音分别把单词读了一遍，他听了以后自己先笑了起来(因为听起来很怪)，立刻用橡皮把汉字擦去了。从那以后他课上、课下总是在认真地听、努力地记，最终模仿出了一口纯正的语音语调。2、模仿练习策略新课程标准指出:在英语教学起始阶段，语音教学主要应通过模仿来进行，教师应提供大量听音、模仿和实践的机会，帮助学生养成良好的发音习惯。学习英语发音，最基本、最有效的方法是模仿。特别是小学生，他们年龄小，模仿能力强，你怎么教，他就怎么学，不需要作任何讲解。模仿练习一般分三个步骤。 ①听音。听音是学习语音的第一步。应该让学生多听音，教师何以提供原声语音资料，使他们接触和学习地道的发音。当然课堂上听的最多的是教师的示范发音。这就要求教师本身发音要准确、规范。只有在听清楚、听准确的基础上，才能使学生模仿，也才能模仿得对，模仿得准确。在教学中，为了让一个班四、五十个学生都能听清、听准，我经常是“走着教语音”，有时在教室前面说一遍，然后走到教室后面让学生转过身再说一遍。这样使每一个学生都能听清，为正确模仿发音打下基础。 ②模仿。模仿时可采取集体模仿和个别模仿。集体模仿主要是训练学生的发音器官，增加学生的模仿机会。个别模仿可以检查学生是否模仿有错，给予及时的帮助纠正。 ③仿说。在听音、模仿的基础上可以进行仿说，这可以通过朗读、日常的听说等练习来进行，逐渐培养学生正确的语音语调。 3、总结归纳策略记忆包括识记、保持、再认和回忆四个过程。小学生的记忆特点是“学得快，忘得快”，这就要求教师要善于启发和引导学生在听和模仿的过程中注意发现和总结、归纳语音规律，帮助学生记忆，以提高学习效率。在教学中，我总是通过开展各种活动去帮助学生掌握字母组合与音素发音的规律，培养学生遇到生词就能根据其拼写正确发音的能力，从而帮助学生形成有效的语音学习策略。例如在外研版教材第八册第五单元第五课Sounds教学中，为了检查学生是否能准确听懂、判断出[ai] [au] [)i]三个双元音，我设计了三首小诗，让学生欣赏，判断小诗含有哪个音并说出，学生非常感兴趣，听的非常认真，结果他们不仅能说出所含音，还能根据读音规律读出小诗，超出了预期的效果。4、整合资源策略新课程标准指出:语音教学应注重语义与语境、语调与语流相结合，不要一味追求单音的准确性。还指出:英语有不同的口音，如:英国口音、美国口音等。教学中，应让学生在基本掌握一种口音的基础上，适当接触不同的口音，为他们发展交际能力打下基础。这就要求教师在语音教学中要根据学生的心理特点和语言学习规律，寻找符合小学生年龄特点的语音材料。教师将这些资料重新整合，注重语义与语境、语调与语流相结合，设计成适合小学生年龄特点的语音训练活动，帮助学生练习语音。在教学中，我通过说 chant和绕口令，帮助学生练习单音音素的发音及重音;通过教唱英文歌曲、学说歌谣和顺口溜，练习连读、节奏和韵律。这样就能将枯燥的、机械的听音和模仿练习变为有趣的、有意义的活动，充分调动学生学习语音的积极性，使他们养成乐于模仿和善于模仿、善于运用的良好习惯和学习策略。语音是语言的基础，是语言的物质外壳，是口语的基本物质单位。而学习策略是学生成功学习的保证。帮助学生有效地使用学习策略，不仅有利于他们把握学习的方向、采用科学的途径、提高学习效率，而且还有助于他们形成自主学习的能力，为终身学习奠定基础。

139 评论 2小时前发布

财米财米

语音合成技术给我们带来了很多惊喜，你知道自己每天都在与它们打交道吗？而开车时的导航就是语音合成的一种。虽然目前的"它们"只会相对机械的朗读文章，但可以肯定的是，语音合成技术已经走出实验室，开始商用，其潜在的巨大市场已露出曙光。

我们的身边总是人声鼎沸。

婴儿牙牙学语，男女互诉爱意。在肺部、气管和声带的共同作用下，声音出现，喉内肌肉协调作用下，我们说出能够代表自己想法的字符，再赋予其愤怒或喜悦或悲伤的情感，人类的语音就此形成。

18世纪末，一个因土耳其行棋傀儡的将在多年后臭名昭著的发明家沃尔夫冈·冯·肯佩伦，花费了人生最后20年的时间，试图模拟人类的语音。他做了一个布满孔洞的空箱，空箱连接着一个奇异形状的鼓风机，鼓风机被压动后将使得内置的簧片振动，这一过程模拟了人类的发声，也确实发出了声音，而这也成就了人类最早的语音合成机械之一。

让机器更像人类，是无数科学家的梦想。这样的梦想被多方位的推进，从机器的外形上、内核的思考运算上，以及对外表达的说话上。

如今，电子设备取代了空盒子，算法则比簧片更能够协调发声。在技术发展下，声音的波动被计算机捕捉、计算、指引，最终发出声音。这一项带着前人梦想的技术，不再单单出现在电影和小说里，也承载起了巨大的市场走进千家万户，这就是语音合成。

从Siri开始的热潮，语音合成潜力无限

同时，Siri的热潮也拉开了语音合成技术运用的大门。

2014年微软推出了"小娜"与"小冰"，这是将Siri所拥有的语音识别技术及语音合成技术分开来，小娜负责理解复杂的口语指令并进行执行，而小冰主要能够和人类友好地聊天。

随后，这样的运用逐步增多：2014 年底，亚马逊发布了 Echo 智能音箱，语音助理 Alexa也随之亮相；一年半后，Google 也发布了第一代智能音箱 Google Home 和语音助手 Google Assistant。

国内的巨头也不遑多让，京东叮咚智能音箱、天猫精灵智能音箱、小爱系列智能音箱、小度智能音箱，也纷纷进入了国人的家居生活。

Siri的热潮同步开启的，不仅仅是语音合成技术在硬件上的应用，也包括一系列更具想象力的交互场景，带来了巨大的商机。

2015年春节，本就搭载了语音导航的高德地图与郭德纲合作，推出了高德地图欢笑版。用户打开高德地图，不仅能够听到导航播报，还能听到郭德纲的极具特色的段子。这一次尝试，让高德地图一度跃至苹果App Store榜单第2名。

在今年新冠肺炎疫情期间，"宅经济"大行其道，"听书"市场也快速爆发，有声阅读成为新的阅读潮流。

除此以外，短视频中的AI配音，让视频内容者省去大量配音时间；对已故知名艺人的声音采集，实现过去与现在的交互，圆了一代粉丝的梦想……

我们可以看到，语音合成技术的未来拥有巨大的想象空间，根据赛迪智库数据，预计到2021年智能语音市场规模将达195亿元。在这其中，智能语音就由语音识别技术（ASR）和语音合成技术（TTS）共同组成。

而这两项技术也正在被头部企业迅速推进，市场之下，语音合成已经不仅仅代表人类过去的梦想，更是代表着更"大一统"的科技格局，毕竟，这一技术改变着人类与机器的交互方式，也将改变未来人类的机器使用习惯，代表着全新的机会与入口。

从过去到现在，语音合成技术一览

1773年，俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦（Christian Kratzenstein）制造了一个特别的设备，通过共鸣管和风琴管的连接，几乎可以完美的发出 a、e、i、o、u 这五个元音。

十多年后，前文提到的沃尔夫冈·冯·肯佩伦也制造了一台类似的机械声学语音机器。随后，多位发明家基于这一机器进行改进，都是试图通过物理机模拟人说话发音。

这样的尝试已经令人难以想象，不过，即使这样的物理机发展得登峰造极，也无法模拟出我们说出的每一个音节、无法拥有人说话的音质，也无法停顿、无法带有情绪。

因此，另一种方式出现——拼接系统，让说话人录制语音存入系统，在合成语音时选择对应的片段进行拼接、合成。这样的拼接系统能够相比物理机极大地接近人声，虽然拼接处的瑕疵难以消除，但是随着如今大数据时代的来临，大语料库的出现，让拼接出的语音逐步真人化，直至如今依然有商业系统在使用。

基于参数的合成技术的诞生背景则是基于神经网络架构的深度学习方法的飞速进展。当时，对语音的识别不再是识别一个简单的词和短词组，而是基于统计的方法，运用声学模型帮助计算机认知每个音素单元的声学特征、运用语言模型帮助计算机实现对人类用词习惯的认知，最终给到用户最高可能性的连接。在这其中，典型的模型是隐含马尔可夫模型（HMM），用来描述如何在可变长的时序特征序列上打词标签。

2017年3月，行业的引领者Google 提出了一种新的端到端的语音合成系统：Tacotron。端到端语音合成是在参数合成技术上演进而来的，把两段式预测统一成了一个模型预测，即拼音流到语音特征流的直接转换，省去了主观的中间特征标注，克服了误差积累，也大幅度提高了语音合成的质量。

然而，为了实现真正像人一样的发音，语音合成系统必须学会语调、重音、节奏等表达因素，这一问题，Tacotron也并未解决。

谷歌曾共享了两篇新论文试图解决这一问题，第一篇论文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介绍了"韵律学嵌入"（prosody embedding）的概念。论文中为 Tacotron 增加了一个韵律学编码器，该嵌入捕捉包括停顿、语调、语速等在内的音频特征可根据一个完全不同的说话者的声音生产语音。

第二篇论文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》则在上一篇论文的架构上进一步展开，并且创新性地提出了一种建模潜在语音"因素"的无监督新方法。这一模型之下，学习的不再是时间对齐的精确的韵律学元素，而是较高层的说话风格模式，并且可以迁移于任意不同的短语之中。

如果论文提到的模型实现，那么我们便可以迫使 Tacotron 使用特定的说话风格，不需要参考语音片段，并能创造出语音长度多样化的不同语句，并带有情绪。

在不远的将来，或许我们就将听到，来自机器的人类声音。

国内：积极商用，进展瞩目

在语音合成的重要研究中，因为国内起步较晚，所以我们很少看到突破性的技术发展。但是，即便停留在艰难的探索初期，巨头们之于语音合成仍旧趋之若鹜。

我们也惊喜地看到，不少企业在近期通过语音合成的商用落地，展现出了自己的技术实力。

① 京东数科：AI主播"小妮"上岗

京东数科基于京东多年在人工智能、大数据、云计算等领域的技术沉淀，在2018年就开始组建机器人的团队，研究覆盖生命科学、传感器材料乃至运动力学与人机交互。

在全面的机器人开发体系下，今年5月，京东数科推出了令人瞩目的AI主播"小妮"，这是京东数科自主研发的AI虚拟数字人产品首次亮相。

小妮的真实是全方位的，在听感、表情、头部动作乃至口型上，小妮都极像真人。从文字到语音，小妮通过自研的轻量级对抗语音合成技术进行转化；而小妮特色鲜明的声音及极具真实性的呼吸和停顿，则是来源于在多人数据上结合深度神经网络进行个性化建模……

更为重要的是，小妮的出现打通了语音、图像、视频，在语音生成视频的阶段，她的形象同样真实。因为京东数科AI实验室利用对抗生成网络来还原更真实的表情，通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。

而除了主播领域以外，AI虚拟数字人还可以用智能客服及招聘领域。在未来，我们可以预见到，AI虚拟数字人在其他高重复性场景的更多运用可能性。而伴随着京东数科全面的机器人体系研发技术的进展，或许也将出现超乎我们想象的AI运用。

② 科大讯飞：为多家企业提供底层技术支持

早在之前，科大讯飞就推出了讯飞录音笔、智能鼠标、阿尔法蛋等涉及语音交互的产品。今年，来自科大讯飞地一款彩色墨水屏阅读器正式面世，一方面，阅读器可以进行常见的新闻播报、语音读书，满足用户的基础要求；另一方面，阅读器结内置了神秘AI主播，可以对话用户、助力用户解决问题。同时，科大讯飞也为多家企业提供底层技术支撑，覆盖智能手机、智能汽车等多个领域。

③ 腾讯云：语音累计音色种类达24种

而对于拥有国内最大流量池——微信、QQ的腾讯而言，这家企业则选择为内容创业者提供服务。

今年9月，腾讯云语音合成团队正式开放面向全量用户的合成音频平台，该平台能够帮助用户在零门槛的情况下实现语音合成技术的运用，用户只需要直语音合成控制台上生成和下载文本对应的音频文件即可。该功能的侧重点是帮助内容创作者在公众号、短视频、小视频等内容上更简单、快捷地插入对应所需的音频文件。同时，腾讯云还发布了全新地11种音色，其中甚至包括粤语这样的方言在内，目前累计音色种类达24种。

④ 百度：百度大脑开放全栈语音引擎能力

作为将AI作为战略进行投入的百度，在语音合成上的推进也不容小觑。

去年，已经开放三年的百度发布了语音引擎。这是一套非常全面的系统，覆盖内容非常广泛，包括硬件模组、开发板以及语音交互场景解决方案等。在这其中，百度也专门围绕语音合成的成功进行了发布，推出了6个在线语音合成精品音库和5个离线语音合成精品音库。

未来语音合成将更接近人类的语言

立足现在，我们不禁畅想，未来的语音合成将是什么样，又将出现在哪些地方？

在技术上，毫无疑问，未来的语音合成将更接近人类的语言。一个理想的语音合成系统由三部分组成：文本分析、韵律生成和合成语音，而在这三方面，行业的发展都还有待提高。

在这其中，韵律生成是行业面临的共同问题，如何可以让语音合成更像人类？更具表达力？作为声学模型，还有大量个性化、情感化的变化因素需要学习。而值得一提的是，语音合成技术的复杂度也需要降低，从而实现更广度地运用。我们也相信，随着大量语料的有效使用，这一切问题也都将解决，未来，语音合成必将更加"传神"。

而随之而来的，我们的生活也将被改变。

一方面，在科技带来革新的同时，传统也将受到冲击。在上文中，小妮被运用与客服以及招聘的部分环节，那么很明显，在不远的未来，具有重复性的语音性质的工作将受到巨大影响。

而另一方面，更为智能的未来也将到来，在将来，人与机器的交互方式或许将被彻底改变，到那时，全新的商业机会也将藏于其中。

为了迎接这一时代，巨头趋之若鹜，而普通人也同样该砥砺前行。

#智能语音##语音合成#

80 评论 8小时前发布

装饰小板凳

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

语音识别技术概述

作者：刘钰马艳丽董蓓蓓

摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前，语音识别方面的困难主要表现在：

(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献：

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

218 评论 10小时前发布

关于语音合成研究的论文

3个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序