人工智能语音识别论文

发布时间：2023-12-12 12:27

人工智能语音识别论文

　与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
　　语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
　　语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。任务分类和应用根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition)，关键词识别（或称关键词检出，keyword spotting)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。
　　根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。
　　另外，根据语音设备和通道，可以分为桌面（PC）语音识别、电话语音识别和嵌入式设备（手机、PDA等）语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。
　　语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。前端前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自相关法（德宾Durbin法）、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。
　　* 倒谱系数CEP：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱（LPCCEP），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。
　　* Mel倒谱系数MFCC和感知线性预测PLP：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。
　　MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型　语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。
　　HMM声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
　　语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模：协同发音，指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为Bi- Phone，考虑前一音和后一音的影响的称为Tri-Phone。
　　英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。
　　N-Gram：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
　　语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。搜索　　连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。
　　Viterbi：基于动态规划的Viterbi算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下，同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别，从而使这一算法成为语音识别搜索的基本策略。
　　由于语音识别对当前时间点之后的情况无法预测，基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性，同一时刻的各条路径对应于同样的观察序列，因而具有可比性，束Beam搜索在每一时刻只保留概率最大的前若干条路径，大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索：为在搜索中利用各种知识源，通常要进行多遍搜索，第一遍使用代价低的知识源，产生一个候选列表或词候选网格，在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典，这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解，往往要利用一些代价更高的知识源，如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析，进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。
　　N-best搜索产生一个候选列表，在每个节点要保留N条最好的路径，会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选，但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径，保留k条。词候选网格以一种更紧凑的方式给出多候选，对N-best搜索算法作相应改动后可以得到生成候选网格的算法。
　　前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后，搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中，因而可以使用启发式的A算法进行后向搜索，经济地搜索出N条候选。系统实现　　语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。
　　听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。
　　对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。自适应与强健性　　语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性，是要提高系统克服这些因素影响的能力，使系统在不同的应用环境、条件下性能稳定；自适应的目的，是根据不同的影响来源，自动地、有针对性地对系统进行调整，在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。
　　解决办法按针对语音特征的方法（以下称特征方法）和模型调整的方法（以下称模型方法）分为两类。前者需要寻找更好的、高鲁棒性的特征参数，或是在现有的特征参数基础上，加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关（SI）模型，从而使其成为说话人自适应（SA）模型。
　　说话人自适应的特征方法有说话人规一化和说话人子空间法，模型方法有贝叶斯方法、变换法和模型合并法。
　　语音系统中的噪声，包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征，模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波，模型方法有倒谱平移。微软语音识别引擎　　微软在office和vista中都应用了自己开发的语音识别引擎，微软语音识别引擎的使用是完全免费的，所以产生了许多基于微软语音识别引擎开发的语音识别应用软件，例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。语音识别系统的性能指标　　语音识别系统的性能指标主要有四项。①词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。②说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。③训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数的多少。④正确识别率：平均正确识别的百分数，它与前面三个指标有关。
　　小结
　　以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点，针对英语提出的技术在汉语中如何使用也是一个重要的研究课题，而四声等汉语本身特有的问题也有待解决。

浅谈计算机人工智能论文

近年来，随着信息技术以及计算机技术的不断发展，人工智能在计算机中的应用也随之加深，其被广泛应用于计算机的各个领域。下面是我给大家推荐的浅谈计算机人工智能论文，希望大家喜欢!

《计算机在人工智能中的应用研究》

摘要：近年来，随着信息技术以及计算机技术的不断发展，人工智能在计算机中的应用也随之加深，其被广泛应用于计算机的各个领域。本文针对计算机在人工智能中的应用进行研究，阐述了人工智能的理论概念，分析当前其应用于人工智能所存在的问题，并介绍人工智能在部分领域中的应用。

关键词：计算机;人工智能;应用研究

一、前言

人工智能又称机器智能，来自于1956年的Dartmouth学会，在这学会上人们最初提出了“人工智能”这一词。人工智能作为一门综合性的学科，其是在计算机科学、信息论、心理学、神经生理学以及语言学等多种学科的互相渗透下发展而成。在计算机的应用系统方面，人工智能是专门研究如何制造智能系统或智能机器来模仿人类进行智能活动的能力，从而延伸人们的科学化智能。人工智能是一门富有挑战性的科学，从事这项工作的人必须懂得计算机知识、心理学与哲学。人工智能是处于思维科学的技术应用层次，是其应用分支之一。数学常被认为是多种学科的基础科学，数学也进入语言及思维领域，人工智能学科须借用数学工具。数学在标准逻辑及模糊数学等范围发挥作用，其进入人工智能学科，两者将互相促进且快速发展。

二、人工智能应用于计算机中存在的问题

(一)计算机语言理解的弱点。当前，计算机尚未能确切的理解语言的复杂性。然而，正处于初步研制阶段的计算机语言翻译器，对于算法上的规范句子，已能显示出极高的造句能力及理解能力。但其在理解句子意思上，尚未获得明显成就。我们所获取的信息多来自于上下文的关系以及自身掌握的知识。人们在日常生活中的个人见解、社会见解以及文化见解给句子附加的意义带来很大影响。

(二)模式识别的疑惑。采用计算机进行研究及开展模式识别，在一定程度上虽取得良好效果，有些已作为产品进行实际应用，但其理论以及方法和人的感官识别机制决然不同。人的形象思维能力以及识别手段，即使是计算机中最先进的识别系统也无法达到。此外，在现实社会中，生活作为一项结构宽松的任务，普通的家畜均能轻易对付，但机器却无法做到，这并不意味着其永久不会，而是暂时的。

三、人工智能在部分领域中的应用

伴随着AI技术的快速发展，当今时代的各种信息技术发展均与人工智能技术密切相关，这意味着人工智能已广泛应用于计算机的各个领域，以下是笔者对于人工智能应用于计算机的部分领域进行阐述。具体情况如下。

(一)人工智能进行符号计算。科学计算作为计算机的一种重要用途，可分为两大类别。第一是纯数值的计算，如求函数值。其次是符号的计算，亦称代数运算，是一种智能的快速的计算，处理的内容均为符号。符号可代表实数、整数、复数以及有理数，或者代表集合、函数以及多项式等。随着人工智能的不断发展以及计算机的逐渐普及，多种功能的计算机代数系统软件相继出现，如Maple或Mathematic。由于这些软件均用C语言写成，因此，其可在多数的计算机上使用。

(二)人工智能用于模式识别。模式识别即计算机通过数学的技术方法对模式的判读及自动处理进行研究。计算机模式识别的实现，是研发智能机器的突破点，其使人类深度的认识自身智能。其识别特点为准确、快速以及高效。计算机的模式识别过程相似于人类的学习过程，如语音识别。语音识别即为使计算机听懂人说

的话而进行自动翻译，如七国语言的口语自动翻译系统。该系统的实现使人们出国时在购买机票、预定旅馆及兑换外币等方面，只需通过国际互联网及电话网络，即可用电话或手机与“老外”进行对话。

(三)人工智能计算机网络安全中的应用。当前，在计算机的网络安全管理中常见的技术主要有入侵检测技术以及防火墙技术。防火墙作为计算机网络安全的设备之一，其在计算机的网络安全管理方面发挥重要作用。以往的防火墙尚未有检测加密Web流量的功能，原因在于其未能见到加密的SSL流中的数据，无法快速的获取SSL流中的数据且未能对其进行解密。因而，以往的防火墙无法有效的阻止应用程序的攻击。此外，一般的应用程序进行加密后，可轻易的躲避以往防火墙的检测。因此，由于以往的防火墙无法对应用数据流进行完整的监控，使其难以预防新型攻击。新型的防火墙是通过利用统计、概率以及决策的智能方法以识别数据，达到访问受到权限的目地。然而此方法大多数是从人工智能的学科中采取，因此，被命名为“智能防火墙”。

(四)人工智能应用于计算机网络系统的故障诊断。人工神经网络作为一种信息处理系统，是通过人类的认知过程以及模拟人脑的组织结构而成。1943年时，人工神经网络首次被人提出并得到快速发展，其成为了人工智能技术的另一个分支。人工神经网络通过自身的优点，如联想记忆、自适应以及并列分布处理等，在智能故障诊断中受到广泛关注，并且发挥极大的潜力，为智能故障诊断的探索开辟新的道路。人工神经网络的诊断方法异于专家系统的诊断方法，其通过现场众多的标准样本进行学习及训练，加强调整人工神经网络中的阀值与连接权，使从中获取的知识隐藏分布于整个网络，以达到人工神经网络的模式记忆目的。因此，人工神经网络具备较强的知识捕捉能力，能有效处理异常数据，弥补专家系统方法的缺陷。

四、结束语

总而言之，人工智能作为计算机技术的潮流，其研究的理论及发现决定了计算机技术的发展前景。现今，多数人工智能的研究成果已渗入到人们的日常生活。因此，我们应加强人工智能技术的研究及开发，只有对其应用于各领域中存在的问题进行全面分析，并对此采取相应措施，使其顺利发展。人工智能技术的发展将给人们的生活、学习以及工作带来极大的影响。

参考文献：

[1]杨英.智能型计算机辅助教学系统的实现与研究[J].电脑知识与技术,2009,9

[2]毛毅.人工智能研究热点及其发展方向[J].技术与市场,2008,3

[3]李德毅.网络时代人工智能研究与发展[J].智能系统学报,2009,1

[4]陈步英,冯红.人工智能的应用研究[J].邢台职业技术学院学报,2008,1

什么是人工智能论文

1.是指“人工智能”方面的学术论文，发表在某一学术期刊上。
2.是指通过某些软件或者应用，搜索某一关键词，自动生成长篇的论文，但论文一般都是不通的。

想发表一篇关于人工智能的论文,有合适的期刊吗?

《人工智能与机器人研究》是一本关于人工智能的期刊，该期刊杂志上发表的文章包含这些领域：智能机器人、模式识别与智能系统、虚拟现实技术与应用、系统仿真技术与应用、工业过程建模与智能控制、智能计算与机器博弈、人工智能理论、语音识别与合成、机器翻译、图像处理与计算机视觉、计算机感知、计算机神经网络、知识发现与机器学习、建筑智能化技术与应用、人工智能其他学科等等。

另外，这本期刊就是一本开源期刊，与传统期刊相比，采用了同行评审的方法审稿，具体开源期刊的特点可以百度了解更多；而且发表了的文章传播范围更广，受众更多，文章的影响力也更大。

人工智能论文哪个方向好写

人工智能与机器人研究这本期刊的领域有这些：智能机器人、模式识别与智能系统、虚拟现实技术与应用、系统仿真技术与应用、工业过程建模与智能控制、智能计算与机器博弈、人工智能理论、语音识别与合成、机器翻译、图像处理与计算机视觉、计算机感知、计算机神经网络、知识发现与机器学习、建筑智能化技术与应用、人智能其他学科人工智能与机器人研究这本期刊的领域，你可以参考下：智能机器人、模式识别与智能系统、虚拟现实技术与应用、系统仿真技术与应用、工业过程建模与智能控制、智能计算与机器博弈、人工智能理论、语音识别与合成、机器翻译、图像处理与计算机视觉、计算机感知、计算机神经网络、知识发现与机器学习、建筑智能化技术与应用、人智能其他学科
具体那个好写就看你自己的专业知识了，你擅长哪方面的就写哪方面的吧

上一篇：针对新闻事件发表评论

下一篇：浅析我国传统戏剧论文

人工智能语音识别论文