首页 > 学术论文知识库 > 语音情感识别毕业论文

语音情感识别毕业论文

发布时间:

语音情感识别毕业论文

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!

语音识别技术概述

作者:刘钰 马艳丽 董蓓蓓

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。* 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。* Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现 语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性 语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎 微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标 语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。小结以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。

不难,我可以帮你写。论文提纲可分为简单提纲和详细提纲两种。简单提纲是高度概括的,只提示论文的要点,如何展开则不涉及。这种提纲虽然简单,但由于它是经过深思熟虑构成的,写作时能顺利进行。没有这种准备,边想边写很难顺利地写下去。编写要点编写毕业论文提纲有两种方法:一、标题式写法。即用简要的文字写成标题,把这部分的内容概括出来。这种写法简明扼要,一目了然,但只有作者自己明白。毕业论文提纲一般不能采用这种方法编写。二、句子式写法。即以一个能表达完整意思的句子形式把该部分内容概括出来。这种写法具体而明确,别人看了也能明了,但费时费力。毕业论文的提纲编写要交与指导教师阅读,所以,要求采用这种编写方法。

语音情感提取特征的毕业论文

论新闻播音中的情感一、新闻播音中的情感依据新闻既是对人类社会实践的客观、真实的反映,又是人(记者、报道者、编辑、播音主持人)对于人类社会实践的认识反映,因而是人的主观选择,因此,人不得不把自己的主观选择———进而把自己的立场、观点、态度、倾向,乃至于自己的兴趣爱好、性格特征、爱憎好恶、情感取向等,尽量隐藏于新闻之下,使自己制作的(写作的、播讲的)新闻保持客观、真实、公正的面貌。但是,人乃血肉之躯,是富有感情的灵性。新闻播音员(主持人)必须用自己的声音语言,乃至面部表情、肢体动作等,把新闻内容传达给受众。就是说,新闻播音员(主持人)必须在理性传达———即尽量客观、公正、真实地传达新闻内容的同时,也将自己感性的一面———即使用自己的器官、感官、表情、动作的一面———直接表露在受众面前。在新闻播音主持实践中,新闻播音员(主持人)恰当表露自己的情感,已为广大受众所接受。虽然仍有一些著名新闻播音员(主持人)至今还在坚持客观冷静的风格,坚持自己的情感不为新闻内容所左右的做法,但是,更多的新闻播音员(主持人)已在自己播音、主持新闻节目时,大胆流露自己的情感倾向。而后者,反而比前者更加显得贴切自然,更能与新闻内容融为一体,也更为广大受众所接受。二、新闻播音中情感的分寸把握找到新闻播音(主持)的情感依据———包括实践的依据和理论的依据,并不等于说,新闻播音(主持)可以滥用情感。实际上,新闻播音(主持)的情感流露,只存在于一个狭小的空间。就像用摄影镜头远距离聚焦,如果想要保持摄影对象焦点清晰,焦点前后景深就只有一点点的距离,稍有差池就会造成摄影对象焦点模糊。这也就是所谓的“分寸感”或“情感分寸”。曾经有人在电视新闻播音(主持)中“热泪盈眶”,也有人在广播新闻播音(主持)中“泣不成声”,这些都严重超越“情感分寸”,后来都给人留下极为深刻的教训。为了保持“焦点清晰”,或者说,保持新闻播音(主持)的情感分寸,就得弄清楚所谓“焦点景深”或“情感分寸”的细微界线到底在哪里。应该说“,焦点景深”或“情感分寸”有一前一后两条界线。前面一条界线是新闻的客观性原则和真实性原则。任何新闻都必须严格保证新闻内容的客观性和真实性。这就要求:在以播音(主持)方式传递新闻内容时,必须时刻牢记“客观、公正、真实”是新闻播音(主持、播报)的本质立场,本来态度。后面一条界线是必须牢牢把握新闻播音员(主持人)和新闻内容之间的距离。新闻是对客观事实的报道,因此,新闻内容和播音员(主持人)之间必然存在距离。新闻和新闻播音员(主持人)之间的距离,决定了新闻播音(主持)的“感情分寸”。如果超越这种分寸,就会给人以“假”的感觉,“做作”的感觉,就会丧失新闻播音(主持)的客观性、真实性和公证性原则。新闻播音(主持)的情感表达,应该来源于新闻稿件。这种情感表达绝大部分隐藏于对新闻内容的层次和节奏以及语言逻辑和重音的把握中。新闻播音员(主持人)为恰当表达情感,必须首先找出新闻稿件的主旨和立意在哪里,找到了新闻的主旨和立意,也就找到了新闻的要点和逻辑、层次和节奏。这样,在播音(主持)时才可以通过形象、生动、鲜活的语言,自然而然恰到好处地表露自己的情感倾向。情感是新闻的内核,它深深隐藏于新闻内容之中,因此也深深隐藏于新闻播音(主持)之中。只有很好地把握新闻的主旨和立意,把握新闻的逻辑和要点,才能把隐藏在新闻后面的情感内核发掘出来,表露出来。缺乏情感的播音(主持),就像是缺乏色香味的菜肴一样令人乏味。事实上,许多新闻稿件由于作者的生活经历不同,立场观点不同,情感态度不同,稿件文字本身就渗透了各种不同的情感因素。这个时候,新闻播音(主持)就必须格外小心地处理好自己的情感表露,不能随波逐流,更不能恣意发挥。恰恰相反,当新闻稿件本身明显流露出作者的情感趋向时,新闻播音(主持)就必须更加冷静客观,严格把握分寸。比如,本台新闻综合频率2008年3月15日《738早新闻》节目中,有一条反映某商家损害消费者利益的消息。这条文字稿件虽然没有强烈抨击商家的语言,主要还是以客观陈述为主,但记者的立场明显站在消费者一边,对某些商业行为进行了严肃的揭露和批评。但在我看来,商家尽管犯有一定的错误,但还不致于到达伤天害理的地步,没有对消费者造成严重损害。因此我在播音情感处理中,十分注意把握分寸,尽量做到语速平稳,气息平和,与人为善。这就在一定程度上使稿件播出保持了客观、公正的立场和态度。三、新闻播音中的情感调节新闻播音(主持)的情感表达不能掺入个人好恶。新闻播音员(主持人)富有自己的生活经历、立场观点和情感态度,这在现实生活中属于完全正常的状态。但是,新闻播音(主持)工作,主要以文字稿件为依据,责任在于把文字稿件的内容播报给广大的受众。因此,除了恰当表露稿件文字所含情感元素之外,不应该掺入新闻播音员(主持人)自己的情感立场或情感倾向。日常生活中,有时新闻播音员(主持人)也会遇到某件不愉快的私事,导致心情恶劣,或者完全没有心情。这时候,新闻播音员(主持人)必须尽快调整自己的心态,不以自己的私人感情影响播音(主持),更不能把个人的好恶带入对稿件的再创作中。依照我多年从事新闻播音(主持)工作的经验,许多情况下,即使在一次播音(主持)过程中,情感流露表达也往往处于运动变化之中。这种情感流露表达的运动变化,一般都取决于稿件本身所表露的情感变化。稿件本身的情感变化,又会引发播音(主持)的情感变化。这时候,需要播音员(主持人)恰当地适应和调节这种变化,理智地掌握这种变化,合情合理地表达好这种变化。播音员(主持人)必须学会遵循稿件内容来激发自己的情感,同时又具有对情感的自我调节能力。有时候,在某一次特定节目中的各篇稿件之间,会出现多次情感调整和变化,甚至一篇稿件中的某个段落与层次之间,也会出现情感上的差异和变化。这时候,往往需要播音员(主持人)进行必要的调节和把握。只有这样,才能准确恰当地,恰到好处地表达出稿件本身所含有的情感倾向。四、新闻播音中的情感分配。新闻节目形态十分丰富,一挡新闻节目往往由多种形态稿件组成。比如,会有时政新闻、社会新闻、批评新闻、人物新闻、新闻通讯、新闻背景等。不同的新闻稿件需要进行不同的情感把握,决不能用一种方式,一个腔调,一播到底。这就需要新闻播音员(主持人)进行必要的情感分配。记得2006年底,我主播一期《738晚新闻》,由于对不同形态的新闻作了恰当的情感分配,使整档节目听起来抑扬顿挫,有声有色。不但层次分明,而且既感情饱满,又跌宕起伏。这档节目被评为省广电学会年度优秀播音作品二等奖。仔细分析这档晚新闻节目,实际上是整组稿件围绕一个共同主题———献爱心、送温暖展开。当时正好时近年关,各地开展了各种送温暖活动。稿件中有政府领导给困难群众送温暖的内容,也有社会各界人士自发献爱心活动。还有一条重头稿件是讲一位身患白血病的十六岁女孩,在社会各界的关爱下,成功实施骨髓移植手术的消息。当时这条消息的播出,牵动了整个古城市民的心。节目中,除了记者与在上海的小姑娘养父进行连线采访,以及对小姑娘的主治大夫进行采访属于录音以外,其他内容都要靠播音(主持)来播报传递。在这期节目中,我特别注重情感分配,用不同的情感色彩,向听众介绍手术情况,小姑娘术后恢复情况,社会各界对小姑娘无微不至关怀的情况,以及台湾慈济会为小姑娘进行骨髓配型和捐赠骨髓等一系列详细背景资料等。另外,我还在节目后半段《方月说事》小单元中,向听众详细讲述了这个患白血病的小姑娘和她的养父母,以及许多不知名的社会人士之间一幕幕感人至深的故事。在对这些稿件的处理中,我把主要情感分配到几条重点稿件中,着意加大情感投入的份量。由于稿件文字十分感人,作为播音员,我首先已被深深打动。但我深知自己的责任:我要把我的感动传递给我的听众,感染给我的听众。而对于其他稿件,我作了相对平稳的处理。这样,使重点稿件显得更加突出,更有份量。我一向认为:播音不是简单的吐字发音,播音不是印刷机或铅字,它不但需要播音员用眼用口去播讲,更需要播音员用脑、用心、用感情去表达。它是一项创造性工作。用悦耳的声音吸引人,用真挚的情感打动人,用振奋的精神感召人,我一直在努力。

1、引言   贝叶斯方法是一个历史悠久,朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。当然有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 2、贝叶斯公式 贝叶斯公式其实很简单,但是很常用,就一行:   而我们二分类问题的最终目的就是要判断 P(“属于某类”|“具有某特征”) 是否大于1/2就够了。贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,而后者获取方法就简单多了,我们只需要找到一些包含已知特征标签的样本,即可进行训练。而样本的类别标签都是明确的,所以贝叶斯方法在机器学习里属于有监督学习方法。   这里再补充一下,一般『先验概率』、『后验概率』是相对出现的,比如 P(Y)与 P(Y|X) 是关于 Y的先验概率与后验概率, P(X)与 P(X|Y)是关于 X的先验概率与后验概率。 4、垃圾邮件识别   我们可以通过一个例子来对邮件进行分类,识别垃圾邮件和普通邮件,如果我们选择使用朴素贝叶斯分类器,那目标就是判断 P(“垃圾邮件”|“具有某特征”) 是否大于1/2。现在假设我们有垃圾邮件和正常邮件各1万封作为训练集。需要判断以下这个邮件是否属于垃圾邮件: 也就是判断概率 P(“垃圾邮件”|“我司可办理正规发票(保真)17%增值税发票点数优惠!”)是否大于1/2。我们不难发现:通过上述的理解,也就是将其转换成的这个概率,计算的方法:就是写个计数器,然后+1 +1 +1统计出所有垃圾邮件和正常邮件中出现这句话的次数啊。也就是:   于是当我们接触到了中文NLP中,其中最为重要的技术之一:分词!!!也就是把一整句话拆分成更细粒度的词语来进行表示。另外,分词之后去除标点符号、数字甚至无关成分(停用词)是特征预处理中的一项技术。我们观察(“我”,“司”,“可”,“办理”,“正规发票”,“保真”,“增值税”,“发票”,“点数”,“优惠”),这可以理解成一个向量:向量的每一维度都表示着该特征词在文本中的特定位置存在。这种将特征拆分成更小的单元,依据这些更灵活、更细粒度的特征进行判断的思维方式,在自然语言处理与机器学习中都是非常常见又有效的。因此贝叶斯公式就变成了: 1、朴素贝叶斯(Naive Bayes),“Naive”在何处?   加上条件独立假设的贝叶斯方法就是朴素贝叶斯方法(Naive Bayes)。将句子(“我”,“司”,“可”,“办理”,“正规发票”) 中的 (“我”,“司”)与(“正规发票”)调换一下顺序,就变成了一个新的句子(“正规发票”,“可”,“办理”, “我”, “司”)。新句子与旧句子的意思完全不同。但由于乘法交换律,朴素贝叶斯方法中算出来二者的条件概率完全一样!计算过程如下: 其中“发票”重复了三次。 3、处理重复词语的三种方式 (1)、多项式模型:   如果我们考虑重复词语的情况,也就是说,重复的词语我们视为其出现多次,直接按条件独立假设的方式推导,则有: 统计计算 P(“词语”|S)时也是如此。 我们扫描一下训练集,发现“正规发票”这个词从出现过!!! ,于是 P(“正规发票”|S)=0 …问题严重了,整个概率都变成0了!!!朴素贝叶斯方法面对一堆0,很凄惨地失效了…更残酷的是这种情况其实很常见,因为哪怕训练集再大,也可能有覆盖不到的词语。本质上还是样本数量太少,不满足大数定律,计算出来的概率失真 *。为了解决这样的问题,一种分析思路就是直接不考虑这样的词语,但这种方法就相当于默认给P(“正规发票”|S)赋值为1。其实效果不太好,大量的统计信息给浪费掉了。我们进一步分析,既然可以默认赋值为1,为什么不能默认赋值为一个很小的数?这就是平滑技术的基本思路,依旧保持着一贯的作风,朴实/土但是直接而有效。对于伯努利模型,P(“正规发票”|S)的一种平滑算法是: 接下来的核心问题就是训练出一个靠谱的分类器。首先需要有打好标签的文本。这个好找,豆瓣影评上就有大量网友对之前电影的评价,并且对电影进行1星到5星的评价。我们可以认为3星以上的评论都是好评,3星以下的评论都是差评。这样就分别得到了好评差评两类的语料样本。剩下就可以用朴素贝叶斯方法进行训练了。基本思路如下: 但是由于自然语言的特点,在提取特征的过程当中,有一些tricks需要注意: 当然经过以上的处理,情感分析还是会有一部分误判。这里涉及到许多问题,都是情感分析的难点: (2)、拼写纠错   拼写纠错本质上也是一个分类问题。但按照错误类型不同,又分为两种情况: 真词错误复杂一些,我们将在接下来的文章中进行探讨。而对于非词错误,就可以直接采用贝叶斯方法,其基本思路如下: 训练样本1:该场景下的正常用词语料库,用于计算 P(候选词i)。 训练样本2:该场景下错误词与正确词对应关系的语料库,用于计算 P(错误词|候选词i) 当然,朴素贝叶斯也是有缺陷的。比如我们知道朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,例如:朴素贝叶斯会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?当然有,就是这里要提到的N-gram语言模型。接下来详细给大家介绍N-gram语言模型。 1、从假设性独立到联合概率链规则  与我们之前我们垃圾邮件识别中的条件独立假设是一样的: 4、N-gram实际应用举例 (1)、词性标注   词性标注是一个典型的多分类问题。常见的词性包括名词、动词、形容词、副词等。而一个词可能属于多种词性。如“爱”,可能是动词,可能是形容词,也可能是名词。但是一般来说,“爱”作为动词还是比较常见的。所以统一给“爱”分配为动词准确率也还足够高。这种最简单粗暴的思想非常好实现,如果准确率要求不高则也比较常用。它只需要基于词性标注语料库做一个统计就够了,连贝叶斯方法、最大似然法都不要用。词性标注语料库一般是由专业人员搜集好了的,长下面这个样子。其中斜线后面的字母表示一种词性,词性越多说明语料库分得越细;需要比较以下各概率的大小,选择概率最大的词性即可: 将公式进行以下改造,比较各概率的大小,选择概率最大的词性: N-gram分类器是结合贝叶斯方法和语言模型的分类器。这里用 Y1,Y2分别表示这垃圾邮件和正常邮件,用 X表示被判断的邮件的句子。根据贝叶斯公式有: 比较这些概率的大小,找出使得 P(Yi|X)最大的 Yi即可得到 X 所属的分类(分词方案)了。Yi作为分词方案,其实就是个词串,比如(“我司”,“可”,“办理”,“正规发票”)(“我”,“司可办”,“理正规”,“发票”),也就是一个向量了。而上面贝叶斯公式中 P(X|Yi)项的意思就是在分类方案 Yi的前提下,其对应句子为 X的概率。而无论分词方案是(“我司”,“可”,“办理”,“正规发票”)还是(“我”,“司可办”,“理正规”,“发票”),或者其他什么方案,其对应的句子都是“我司可办理正规发票”。也就是说任意假想的一种分词方式之下生成的句子总是唯一的(只需把分词之间的分界符号扔掉剩下的内容都一样)。于是可以将 P(X|Yi)看作是恒等于1的。这样贝叶斯公式又进一步化简成为: 也就是说我们

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!

语音识别技术概述

作者:刘钰 马艳丽 董蓓蓓

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

自然语言处理(NLP)在旅游领域具有广泛的应用,其中之一是情感分析。情感分析是指通过计算机程序来识别文本中的情感倾向,分析人们对旅游目的地、酒店、餐厅、交通工具等的评价。这种技术可以帮助旅游公司、酒店、餐厅等机构了解消费者的需求和喜好,改善服务质量和提高客户满意度。

一个典型的旅游情感分析应用是在线评论分析。在线评论是消费者对旅游目的地、酒店、餐厅等的反馈,通过使用 NLP 技术,旅游公司和酒店等机构可以分析这些评论,了解消费者对服务质量、位置、价格、餐饮等的看法。这些信息可以帮助他们改善服务质量、提高客户满意度。

另一个应用是社交媒体情感分析。社交媒体是消费者展示旅游经历的主要渠道,通过使用 NLP 技术,旅游公司和酒店等机构可以分析消费者在社交媒体上发布的文本、图片和视频,了解消费者对旅游目的地、酒店、餐厅等的感受。这些信息可以帮助他们改善服务质量、提高客户满意度、扩大品牌知名度。

此外,NLP还可以用于预测未来趋势,通过分析历史数据来预测旅游需求、价格趋势等,进而帮助旅游公司和酒店等机构调量、提高客户满意度。

NLP技术还可以用于语音识别和语音合成,在旅游领域中应用于语音导航、语音查询等场景。例如,旅游公司可以开发一款语音导航应用,让游客在旅游中使用语音命令来获取信息和导航。

总之,NLP在旅游领域有着广泛的应用,它可以帮助旅游公司、酒店、餐厅等机构了解消费者的需求和喜好,改善服务质量和提高客户满意度。通过使用NLP技术,旅游行业可以更好地了解客户,并提供更好的服务和体验。

情感识别研究现状分析论文

情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集以及Theresa Wilson等建立的MPQA是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。目前研究主要集中于情感词的正面负面分类,标注语料,情感词的提取等。

(1)en WanHui, Qiu YuiHui, Liu GuangYuan*, Cheng NanPu, Huang XiTing. Construction and cross-correlation analysis of the affective physiological response database. ScienceChina: Information Sciences, 2010, 53(9): 1774-1784.(2)Xu Ya,Liu GuangYuan*,Hao Min,Wen WanHui,Huang XiTing. Analysis of Affective ECG Signals toward Emotion Recognition. Journal of Electronics, 2010, 27(1): 8-14.(3)Cheng Jing, Liu Guangyuan*, Yang Zhaofang. Construction of Human-Computer Affective Interaction Assistant. Advances in Information Sciences and Service Sciences, 4(17), 83-90, 2012.(EI检索)(4)温万惠,邱玉辉,刘光远*,程南璞,黄希庭。情感生理反应样本库的建立与数据相关性分析。中国科学:信息科学,2011,41(1):77-89。(5) 熊勰,刘光远*,温万惠.基于智能算法的生理信号情感识别,计算机科学,2011,38(3):pp 266-268.(6)郝敏,刘光远*.基于进化策略的生理信号情感识别[J].智能系统学报,2009,4(4):352-356.(7)程静,刘光远*.学科交叉视角下的情感识别研究进展.计算机科学,39(5), 19-24 , 2012(8) 陈红,刘光远*,赖祥伟.相关性分析和最大最小蚁群算法用于脉搏信号的情感识别[J].计算机科学, (4):250-253(9) 曹军,刘光远*,赖祥伟.量子粒子群和相关性分析在心电特征选择中的应用[J].计算机科学, (3):209-211(10)张洪强,刘光远*,赖祥伟.随机森林算法在肌电的重要特征中选择中的应用[J].计算机科学, (1):200-202(11) 杨敏,刘光远*,温万慧.两类情感状态下心电与HRV信号的非线性分析[J].计算机应用,( 10) : 2963-2965(12)Jie WEI, Guangyuan LIU*,Wanhui WEN. Dynamical models of love with the decay of the . Math. Comput.(Under review.)(13)Liu Fengru, Liu Guangyuan*, Lai Xiangwei, Wen Wanhui. The model about the affection regulation based on partial least regression in the human-computer interaction. In Proceedings of the 2012 International Conference on Natural Computation,Chongqing, 2012, 1: 1060-1063. (EI Compendex indexed, No. 20123815448819)(14)Hong Chen, Guangyuan Liu*, Xie Xiong. A Novel Feature Selection Method for Affective Recognition Based on Pulse Signal[C]. 2011 Fourth International Symposium on Computational Intelligence and Design (ISCID 2011) . , , . (Indexed by EI and ISTP).(15)Hong Qiu, Guangyuan Liu*, Fengru Liu. Affective recognition from EMG signal: An approach based on correlation analysis and adaptive Tabu Search[C].The 2011 International Conference on Mechatronic Science, Electric Engineering and Computer,.(16)Fengru Liu ,Guangyuan Liu*, Xiangwei Lai ,Wanhui Wen. The model about the affection regulation based onpartial least regression in the Human-computer interaction[C], 2012 8th International Conference on Natural Computation (ICNC 2012). .(17)Biying Liu , Guangyuan Liu* , Zhaofang Yang. Analysis of Affective State from Galvanic Skin Response Using Correlation Dimension and Embedding Dimension[C],2012 Fifth International Symposium on Computational Intelligence and Design. , ..(18)Zhengji Long, Guangyuan Liu* and Xuewu Dai.”Extracting Emotional Features from ECG by Using Wavelet Transform”,Proceeding of the first International Conference on Biomedical Engineering and Computer Science(ICBECS2010),P404-407,2010.(19)Guanghua Wu,Guangyuan Liu*,Min Hao. The analysis of emotion recognition from GSR based on PSO. The 2010 International Symposium on Intelligence Information Processing and Trusted Computing (IPTC 2010).(20)Huiling Zhang, Guangyuan Liu*. Research of Emotion Recognition Based on Pulse Signal. Proceedings of IEEE International Conference on Advanced Computer Theory and Engineering,(21)Wen WanHui, Qiu YuiHui, Liu GuangYuan*. Electrocardiography Recording, Feature Extraction and Classification for Emotion Recognition. In Proceedings of the 2009 World Congress on Computer Science and Information Engineering,Los Angeles,CA, 2009, 4: 168-172. (EI Compendex indexed, No. 20094712464745)(22)XU Ya, LIU Guang-Yuan*, “A method of emotion recognition based on ECG signal,” proceeding of the 2009 international conference on computational intelligence and natural computing (CINC’09), IEEE computer society, 2009, .(23)MA Chang-Wei, LIU Guang-Yuan*,” feature extraction, feature selection and classification from electrocardiography to emotions,” proceeding of the 2009internationalconferenceoncomputationalintelligenceandnatural computing (CINC’09), IEEE computer society, 2009, .(24)LIU Guang-Yuan,HAO Min,“emotion recognition of physiological signals based on adaptive hierarchical genetic algorithm,”proceeding of the 2009 WRI world congress on computer science and informationengineering (CSIE’09), IEEE computer society, Los Angeles, California USA, 2009, .(25)WEN Wan-Hui, QIU Yu-Hui, LIU Guang-Yuan*,”electrocardiography recording, feature extraction and classification for emotion recognition,”proceeding of the 2009 WRI world congress on computer science and information engineering (CSIE’09),IEEEcomputersociety,LosAngeles,CaliforniaUSA,2009,

自改革开放以来,外国文学研究与教学在目的上、方法上和体系上硕果累累,但其中不乏问题,比如重科研、轻教学,缺乏及物性等。面对这样的困境,我国外国文学研究与教学的出路在哪里?原文 :《外国文学研究需有及物性》作者 |本报记者 程洁图片 |网络当上海一夜北风紧的时候,曾经海舶辐辏、江海通津的闽都福州,仍徜徉在初冬的暖阳之中。福建师大文学院、外语学院千里逢迎,中国外国文学学会教学研究会高朋满座。外国语学院院长李小荣致辞时说,“今年年会选择在福州召开,或可说是向闽派翻译的致敬”。榕城孕育了开眼看世界的林则徐,民国著名翻译家林纾、严复、冰心,他们的纪念馆正大隐隐于三坊七巷,一任后世传颂。福建不仅研读着“山海经”,而且一直走在沟通海内外的前沿。今天,外国文学研究何为“今天,外国文学研究何为”之问听起来不由得不让人哂笑。但是,对一些人来说,即使不说这是文学研究的青铜、黑铁时代,至少黄金时代似乎远逝。王晓明教授1999年接受《中华读书报》采访时曾表示50年来最好的文学时代是上世纪80年代。20年过去,这个观点在很多学者那里可能依然有共鸣。对上世纪七八十年代的大学生而言,最热门的专业是文史哲等基础学科专业。而今天,文史哲绝对不是香饽饽。然而,学术是公器,作为专业的外国文学教学和研究者,须臾不能忘记身负的使命和责任。正如年会开幕式上,福建师大副校长郑家建教授和中国外国文学学会秘书长吴晓都研究员所指出的,党的十九大提出构建人类命运共同体,这赋予了外国文学研究者以使命,外国文学研究具有的学科优势,使之能够为促进文化理解、增强文化对话、推动文化交流等方面服务。经典,不离不弃针对经典作品受到前所未有的挑战,天津社会科学院研究员赵沛霖指出,文学经典是具有“美学尊严”的载体,其意义和价值主要蕴涵于它所承载的传统文化精神和艺术开创精神之中,但要把它变成现实,成为全民族的精神财富,首先需要文学研究工作者认真发掘和研究,运用现代意识加以阐释,文学经典就能为当代社会提供大量的有价值的思想。“经典没有过时,今天如何切入?”上海交通大学教授尚必武在点评时发问。福建师大葛桂录教授认为,当代西方文论的困境、数字人文时代的挑战与机遇、经典重估与理论创新的迫切需求,成为当下外国文学研究之中国话语建设的时代语境。其基本路径是弘扬中国学术研究重视实证的优良传统,并借鉴外国文学理论与批评方法的先进经验,尝试比较文学视野与思想史语境的解读策略。“有一千个读者就有一千个哈姆莱特”。经典仍然是外国文学研究者们的最爱。莎士比亚、卡夫卡、霍桑、爱伦·坡等作家凝聚众多目光,巴尔扎克、村上春树、爱丽丝·门罗等也在热门探讨之列。或关注内容,或关注叙述视角。青年学者初露锋芒,不仅有很强的创新能力,而且具备扎实的基本功。中西文学比较分论坛上的发言论题也较广泛,既有对文学的研究,又有对文化(园林美学)的研究,既有对古代(如古希腊文学)的研究,又有对近代、当代的研究;既有中英文学比较研究,也有中非、中希、中古,以及华文文学的研究,视野开阔,有创新意义。教学,莫失莫忘很长一段时间以来,质疑我国高校“重科研、轻教学”倾向的声音不绝于耳。教学与科研,是高校最为核心的两项职能,不可偏废。中国人民大学曾艳兵教授在发言中指出,当前存在研究与教学脱节的现象,有些研究与教学无关,而有些教学没有上升到学术意义。当传统的倒灌式教学模式逐渐失效,武汉大学涂险峰教授认为,外国文学教学不可仅局限于单一作家作品的解读,而应具有跨文化、跨学科以及贯通整个文学史的宏阔视野。信阳学院袁浏艳针对目前各个高校的外国文学课时减少和压缩的现状,探讨了“互联网+”在外国文学教学中的具体运用。把慕课、微课以及基于此的翻转课堂引入教学,让外国文学课堂真正成为学生获得国际视野和国际思维的重要途径之一。河北科技大学郭瑞萍强调,外国文学教学也是当下对学生进行“思政教育”的重要平台。然而,教学必须置入中国文化语境,克服西方或中方中心主义,把握好理智与情感的关系。如何实现世界知识的中文表达和中华文化的世界表达值得深思。不要丧失及物性“我国外国文学经典研究自改革开放以来众声喧哗,并渐入佳境,取得了令人瞩目的成就”,上海师范大学教授朱振武肯定了外国文学研究的成绩,但同时也犀利地指出了一些问题:“存在低端、重复、照搬、跟风或对国外特别是西方的研究机械模仿等诸多弊端,出现了从文本到文本、从理论到文本、从文本到理论、单纯比较和从资料到资料等简单化、模式化和泛西化倾向,缺少自主意识,缺少批评自觉,进入了‘无我之境’,导致话语严重缺失,严重僵化和矮化,不知道批评的立足点何在,也不知道文学批评的旨归何在。”如果大量学者丧失了及物性,缺乏问题意识、批评意识、视野意识、对话意识,只是一再娴熟地制造“本真的行话”,文学研究如何健全发展?湘潭大学宋德发教授指出,“因为现在的外国文学论文中,几乎看不到‘人’。不少人把马克思主义中的‘人’给弄丢了”。与此同时,思潮的研究式微。在中国外国文学学会教学研究会会长蒋承勇教授看来,曾经的一段时期,在摆脱了“现实主义独尊”的历史性狭隘之后,文学创作同样陷入了“现代派独尊”的另一种极端。时至今日,依然有人不同程度地以这种狭隘思维看待现实主义文学,不无偏见地冷落乃至试图封存这份珍贵的文学遗产。学界本是基于学术共识而形成的一个学术共同体。然而,今天不少学者都痛心疾首地指出学界缺乏指向性和共识意识。浙江大学教授翟业军曾表示:“丧失现实指向性,陷溺进知识和事实的泥沼,空洞化、泡沫化、标准化的乱象丛生,大抵是因为学术共识的缺失。所以我们需要反思我们的学术路径,凝聚我们的学术共识。”正值“五四运动”100周年,应继续传承和发扬“五四”时期文学思潮交流的精神,把比较视野作为理解对话的钥匙,将文学思潮作为分析研究的线索,推动外国文学研究的再出发,促进中外人文交流,在比较理念下推动人类命运共同体的形成。很喜欢中国社科院研究员陈众议文章中的一段话:“托马斯·曼在逃离纳粹德国、登上前往新大陆的邮轮时,忽然想起了那个著名的问题:如果将你送到一座荒岛,且只许你带一件物品,你会选择什么?而当时曼的手提箱里除了少量衣物,仅有一套德文版《堂吉诃德》。”文章原载于社会科学报第1685期第5版,未经允许禁止转载,文中内容仅代表作者观点,不代表本报立场。

问世间,情为何物,至此得答案。 情深深,意切切, 山川万物皆我爱。 天地合一融其中, 阴阳合璧仙境生。 不绝情,不痴情, 我情遍布一切中。 待到功满自然成, 美好理想幻成真。

语音识别检测系统论文

1、中国知网查重知网查重结果的准确度是很高的,是如今国内最权威的论文查重软件,其中收录的数据库很全面,并且有海量的资源。检测本科论文适合使用知网pmlc论文查重系统,检测硕博研究生论文适合使用知网论文查重系统,很多高校也都是与知网合作,大家需要根据自己论文的类型选择对应的知网论文查重系统。2、万方检测和维普网检测这两个论文查重也有部分学校使用,也是国内除知网以外的主流论文查重软件,检测严格性不如知网,但是检测速度较快,收费价格也比知网便宜,查重结果准确也比较高,部分学校也是认可的。、3、PaperPP论文查重PaperPP一款致力于为广大有论文查重需求的人们提供恰当有效查重服务的对软件,性价比很高,收费价格十分亲民接地气,还有机会能够免费查重,对于大学毕业生来说是一大福利,其查重质量和安全性都比较高。4、PaperPass论文检测这个是前几年兴起,近几年比较活跃的一个论文查重系统,价格中等,也是有一部分人使用具有一定知名度的软件。5、PaperYY论文检测价格也比较便宜,同样适合用来检测论文初稿,不建议使用其来检测论文终稿,因为数据库资源比知网相差还很多,查重结果准确度没有知网那么高的精确度。

我导师推荐过语音识别专刊,在EI上应该可以搜到。还有Acoustical Society of America上的论文水平也蛮高的

Paperbye论文查重系统曾经在2014年推出的淘宝使用版,主要原因是查重市场也是从淘宝兴起的,通过几年的不懈努力,无论从查重内容准确度,修改论文效率,还是使用体验,都在不断精进,2018年下半年正式推出全新的论文查重系统,不光可以查重还可以自动降重。因此paperbye并不是纯粹的论文查重系统,准确的描述是,自带改重的论文查重系统,解决了目前市场论文查重之后,不知道怎么修改和修改论文效率低的问题,利用软件的“机器人改重”功能,实现软件的自动修改论文重复内容,从而达到迅速自动降低论文重复率,特别是对于第一次写论文的同学,软件自动修改论文内容,会给同学们一些启示或直接使用机器修改的内容进行替换原文内容,提高的文章查重和修改效率。

具体看看有哪些实用功能:

1、机器人智能改重

Paperbye改重是机器人自动修改查重报告里相似的文字内容,自动修改就是论文查重完成后,系统自动把相似内容通过深度学习的数据内容进行替换修改,达到自动降低文章相似率的目的。一篇几万字的文章,10秒内容可以修改完成,这个修改效率是任何人工都无法比拟的,修改文章效率高是机器人修改的独特优势。机器人修改的语句并不是简单的替换关键词和调换语序,主要原理是通过深度学习大量数据后把语义相似的句子进行替换。

2、免费在线改重

在线改重功能是机器人改重功能的延伸和完善,机器改重功能并不是非常完美,就像我们现在的语音识别系统,语音输入并不是100%的完美识别,用手机语音输入文字大家应该有体会。对于机器人修改的语句并不是每句都修改的很完美的,遇到一些专业性比较强的术语修改的会有些牵强,但是不用担心,可以在免费改重工具编辑器里自主修改,通过人工修改相结合达到完美降重效果。

3、同步查重功能

这个功能根据“赫洛克效应”的及时反馈的心理原理,在修改论文的过程中,修改一句话,通过paperbye的“同步查重”功能,马上就可以看到修改效果,达到及时反馈,并且及时检验了修改的方法技巧,使继续修改的信心大增,可以大大提高修改论文的质量和效率。传统的论文查重方式的是你必须把全文或片段改完,重新提交论文到查重系统里重新检测才能知道结果,这种方式无论从流程,还是查重后修改,都比较繁琐,更重的是如果通过修改查重后的相似比例降下来不理想,给人的感觉比较身心疲惫,没有愉悦感,对修改论文极度厌恶。Paperbye论文查重系统解决了这个问题,算是颠覆传统,开创先河,让论文降重不再痛苦。

4、同步查重和在线改重的结合

这两个功能在paperbye查重系统里像一双筷子一样,紧密结合使用的,自己对文章内容修改后,就需要对修改的内容进行查重,点击系统里的“同步查重”,马上就会看到修改后的效果,甚至修改1个字,都可以进行马上查重并反馈修改结果,真正实现一边修改论文,一边进行论文查重。修改、查重同步进行,完美结合。市场上声称“在线改重”,好多同学容易误解,那种改重是必须改完整片文章,再整篇提交,就是传统的论文查重方式,并不能实现修改一句马上看到修改结果。目前paperbye才是真正的实现了边修改边查重的同步效果。

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!

语音识别技术概述

作者:刘钰 马艳丽 董蓓蓓

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

语音识别技术人工智能毕业论文

语音识别是完成语音到文字的转换。自然语言理解是完成文字 到语义的转换。语音合成是用语音方式输出用户想要的信息,用语音实现人与计算机之间的交互,主要包括语音识别、自然语言理解和语音合成。 相对于机器翻译,语音识别是更加困难的问题。机器翻译系统的输入通常是印刷文本,计算 机能清楚地区分单词和单词串。而语音识别系统的输入是语音,其复杂度要大得多,特别是口语 有很多的不确定性。人与人交流时,往往是根据上下文提供的信息猜测对方所说的是哪一个单 词,还可以根据对方使用的音调、面部表情和手势等来得到很多信息。特别是说话者会经常更正所说过的话,而且会使用不同的词来重复某些信息。显然,要使计算机像人一样识别语音是很困难的。  语音识别过程包括从一段连续声波中采样,将每个采样值量化,得到声波的压缩数字化表 示。采样值位于重叠的帧中,对于每一帧,抽取出一个描述频谱内容的特征向量。然后,根据语音信号的特征识别语音所代表的单词,语音识别过程主要分为五步,如下: 01 语音信号采集 语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为 电压信号,然后通过A/D装置(如声卡)进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。 目前多媒体计算机已经非常普及,声卡、音箱、话筒等已是个人计算机的基本设备。其中声 卡是计算机对语音信进行加工的重要部件,它具有对信号滤波、放大、A/D和D/A转换等功 能。而且,现代操作系统都附带录音软件,通过它可以驱动声卡采集语音信号并保存为语音文件。 对于现场环境不好,或者空间受到限制,特别是对于许多专用设备,目前广泛采用基于单片机、DSP芯片的语音信号采集与处理系统。 02 语音信号预处理 语音信号号在采集后首先要进行滤波、A/D变换,预加重(Preemphasis)和端点检测等预处理, 然后才能进入识别、合成、增强等实际应用。 滤波的目的有两个:一是抑制输入信号中频率超出//2的所有分量(/:为采样频率),以防止 混叠干扰;二是抑制50 Hz的电源工频干扰。因此,滤波器应该是一个带通滤波器。 A/D变换是将语音模拟信号转换为数字信号。A/D变换中要对信号进行量化,量化后的信 号值与原信号值之间的差值为量化误差,又称为量化噪声。 预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带 中,能用同样的信噪比求频谱,便于频谱分析。 端点检测是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能减 少处理时间,而且能排除无声段的噪声干扰。目前主要有两类方法:时域特征方法和频域特征方 法。时域特征方法是利用语音音量和过零率进行端点检测,计算量小,但对气音会造成误判,不 同的音量计算也会造成检测结果不同。频域特征方法是用声音的频谱的变异和熵的检测进行语 音检测,计算量较大。 03 语音信号的特征参数提取 人说话的频率在10 kHz以下。根据香农采样定理,为了使语音信号的采样数据中包含所需单词的信息,计算机的采样频率应是需要记录的语音信号中包含的最高语音频率的两倍以上。一般将信号分割成若干块,信号的每个块称为帧,为了保证可能落在帧边缘的重要信息不会丢失,应该使帧有重叠。例如,当使用20kH*的采样频率时,标准的一帧为10 ms,包含200个采样值。 话筒等语音输入设备可以采集到声波波形。虽然这些声音的波形包含了所 需单词的信息,但用肉眼观察这些波形却得不到多少信息因此,需要从采样数据中抽取那些能 够帮助辨别单词的特征信息。在语音识别中,常用线性预测编码 技术抽取语音特征。 线性预测编码的基本思想是:语音信号采样点之间存在相关性,可用过去的若干采样点的线 性组合预测当前和将来的采样点值。线性预测系数埽以通过使预测信号和实际信号之间的均方误差最小来唯一确定。 语音线性预测系数作为语音信号的一种特征参数,已经广泛应用于语音处理各个领域。 04 向置量化 向量量化(Vector Quantization,VQ)技术是20世纪W年代后期发展起来的一种数据压缩和 编码技术。经过向量量化的特征向量也可以作为后面隐马尔可夫模型中的输入观察符号。 在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入 的标量信号,量化时落入小区间的值就用这个代表值>[戈替。因为这时的信号量是一维的标量,所 以称为标量量化。 向量量化的概念是用线性空间的观点[,把标量改为一维的向量,对向量进行量化。和标量量化一样,向量量化是把向量空间分成若干个小区域,每个小区域寻找一个代表向量,量化时落入 小区域的向量就用这个代表向量代替。 向量量化的基本原理是将若干个标量数据组成一个向量(或者是从一帧语音数据中提取的 特征向量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。 05 语音识别 当提取声音特征集合以后,就可以识别这些特征所代表的单词。本节重点关注单个单词的 识别。识别系统的输入是从语音信号中提取出的特征参数,如LPC预测编码参数,当然,单词对 应于字母序列。语音识别所采用的方法一般有模板匹配法、随机模型法和概率语法分析法三种。这三种方法都是建立在最大似然决策贝叶斯(Bayes)判决的基础上的。 ( 1 ) 模板(template)匹配法 在训练阶段,用户将词汇表中的每一个词依次说一遍,并且将其特征向量作为模板存入模板 库。在识别阶段,将输入语音的特征向量序列,依次与模板库中的每个模板进行相似度比较,将 相似度最高者作为识别结果输出。 ( 2 ) 随机模型法 随机模型法是目前语音识别研究的主流。其突出的代表是隐马尔可夫模型。语音信号在足 够短的时间段上的信号特征近似于稳定,而总的过程可看成是依次相对稳定的某一特性过渡到 另一特性。隐马尔可夫模型则用概率统计的方法来描述这样一种时变的过程。 ( 3 ) 概率语法分析法 这种方法是用于大长度范围的连续语音识别。语音学家通过研究不同的语音语谱图及其变 化发现,虽然不同的人说同一些语音时,相应的语谱及其变化有种种差异,但是总有一些共同的 特点足以使他们区别于其他语音,也即语音学家提出的“区别性特征”。另一方面,人类的语言 要受词法、语法、语义等约束,人在识别语音的过程中充分应用了这些约束以及对话环境的有关 信息。于是,将语音识别专家提出的“区别性特征”与来自构词、句法、语义等语用约束相互结 合,就可以构成一个“自底向上”或“自顶向下”的交互作用的知识系统,不同层次的知识可以用 若干规则来描述。 除了上面的三种语音识别方法外,还有许多其他的语音识别方法。例如,基于人工神经网络 的语音识别方法,是目前的一个研究热点。目前用于语音识别研究的神经网络有BP神经网络、 Kohcmen特征映射神经网络等,特别是深度学习用于语音识别取得了长足的进步。找我获取IT技术干货

  • 索引序列
  • 语音情感识别毕业论文
  • 语音情感提取特征的毕业论文
  • 情感识别研究现状分析论文
  • 语音识别检测系统论文
  • 语音识别技术人工智能毕业论文
  • 返回顶部