语音增强算法研究论文

3个回答默认排序

默认排序

按时间排序

tiankongch

已采纳

单通道语音增强是语音信号处理中广泛研究的课题，主要作为前端去噪模块应用在提升音质、语音通信、辅助听觉、语音识别等领域。单通道语音增强问题定义主要包括两个方面：

不包括：

单通道语音增强传统的方法是滤波和统计信号处理，比如WebRTC的噪声抑制模块就是用维纳滤波。这些传统的方法基本都在《语音增强--理论与实践》一书中有详细讲解。

近几年机器学习方法兴起，也逐渐成为语音增强的主要研究方向，各种新型神经网络的方法都被尝试用在语音增强领域。这些新方法主要看近几年的InterSpeech会议、ICASSP会议和IEEE的期刊。

下面先对单通道语音增强号的基本处理步骤做个简单介绍。

假设麦克风采集到的带噪语音序列为，并且噪声都是加性噪声。则带噪语音序列为无噪语音序列与噪声序列的和。原始语音信号与噪声均可视为随机信号。

语音信号的处理一般都在频域，需要对带噪信号进行分帧、加窗、短时傅里叶变换（STFT）后，得到每一帧的频域信号，其中X，Y，D分别是干净语音、带噪信号和噪声的频域信号。

语音增强的目标是对实际信号的幅度和相位进行估计。但是因为相位不易估计、而且研究表明相位对去噪效果影响比较小\cite{wang1982unimportance}，所以大部分方法都只对幅度谱进行增强，而相位则沿用带噪信号的相位。

换句话说，语音增强就是要找出一个频域的实函数 , 并且将这个函数与带噪信号相乘，得到干净语音的估计。这个实函数称作抑制增益(Suppression Gain)。

下面是单通道语音增强系统主要步骤的示意图，系统目标就是估计抑制增益，而抑制增益依赖于两个核心步骤：语音检测VAD和噪声估计模块。只有准确估计噪声谱，才有可能准确估计抑制增益。详细的VAD和噪声估计方法不在这篇文章里面详述，具体可以看参考文献。一种简单的想法是先估计出VAD，如过判断此帧没有语音，则更新噪声谱，否则就沿用上一帧的噪声谱。

综上，语音增强的典型流程就是： 1 对带噪语音y[n]分帧，每一帧进行DFT得到。 2 利用进行VAD检测和噪声估计。 3 计算抑制增益。 4 抑制增益与带噪信号谱相乘，得到纯净语音谱 5 对进行IDFT,得到纯净语音序列的估计。

噪声估计模块可以估计噪声功率，也可以估计信噪比，避免信号幅度变化带来的误差。定义后验信噪比为，带噪语音与噪声功率之比：

定义先验信噪比，为纯净语音与噪声功率之比：

谱减法是最直观的去噪声思想，就是带噪信号减去噪声的频谱，就等于干净信号的频谱。估计信号频谱的表达式如下，其中应是噪声估计模块得到的噪声频谱。

假设语音信号与噪声不相关，于是得到估计的信号功率谱是测量信号功率谱减去估计的噪声功率谱。

因此抑制增益函数即为：

维纳滤波的思想也很直接，就是将带噪信号经过线性滤波器变换来逼近原信号，并求均方误差最小时的线性滤波器参数。维纳滤波语音增强的目标就是寻找系数为实数的线性滤波器，使得滤波偶信号与原干净语音信号之间的均方误差最小。这是一个优化问题，目标是求使得均方误差最小的参数

Gain用先验信噪比表示

见博文《单通道语音增强之统计信号模型》。

待补充。

话音激活检测(Voice Activity Detection, VAD) 将语音帧二分为“纯噪声”和“语音噪声混合”两类。说话人静音、停顿都会出现多帧的纯噪声，对这些帧无需估计语音信号，而可以用来估计噪声功率。语音帧经过VAD分类后，进行不同的处理:

：不含语音帧，更新噪声功率估计和Gain, 进行抑制；

：包含语音帧，沿用上一帧的噪声功率和Gain，进行抑制。

语音存在概率SPP(Speech Presence Probability，SPP) 跟VAD作二分类不同，利用统计模型对每一帧估计出一个取值在[0,1]的语音存在概率，也就是一种soft-VAD。 SPP通常跟统计信号模型结合起来估计最终的Gain。

一种估计SPP的方法是根据测量信号估计每个频点的语音存在的后验概率，也就是。

根据贝叶斯公式：

定义语音不存在的先验概率为 , 语音存在的先验概率为。假设噪声与语音信号为零均值复高斯分布。最终可以得到SPP计算公式：

其中为为条件信噪比，有及。

语音不存在的先验概率可以采用经验值，如，或者进行累加平均，也可以参考《语音增强—理论与实践》中更复杂的算法。

最小值跟踪发的思想是，噪声能量比较平稳，带语音的片段能量总是大于纯噪声段。对于每个频点，跟踪一段时间内最低的功率，那就是纯噪声的功率。

为了使功率估计更稳定，通常要对功率谱进行平滑处理：

然后寻找当前第帧的最低功率。简单的方法是直接比较前帧的功率，得到最小值，计算速度较慢。还有一种方法是对进行非线性平滑，公式如下。

参数需要调优，可以参考文献中提供的取值：、、。

这种估计方法的思路是，噪声的能量变化比语音稳定，因此按频点统计一段时间内的能量直方图，每个频点出现频次最高的能量值就是噪声的能量。主要包括以下几个步骤：

1.计算当前帧的功率谱

2.计算当前帧前连续D帧功率谱密度直方图，选择每个频点k的频次最高的功率值

3.滑动平均，更新噪声功率谱密度

当前帧的SNR很低，或者语音出现概率很低时，意味着当前信号功率很接近噪声功率，我们可以用当前帧的功率谱与前一帧估计的噪声功率进行加权平均，从而更新噪声功率谱。这就是递归平均法，通用的公式是：

算法的核心变成了计算参数，研究者提出了不同的方法，比如可以根据后验信噪比计算参数：

用和分别代表当前帧包含语音和不包含语音，从概率论的角度，当前帧的噪声功率期望值为：

其中，当前帧不存在语音时，噪声功率就是信号功率，所以。当前帧存在语音时，可以用前一帧估计的噪声功率来近似, 。噪声的递归平均算法转化为求当前帧每个频点的语音存在/不存在概率问题：

比照递归平均的通用公式，也就是。使用前一节介绍的语音存在概率SPP计算方法求即可。

MCRA是一种将最小值跟踪与基于语音概率的递归平均结合起来的算法,核心思想是用当前帧功率谱平滑后与局部最小功率谱密度之比来估计语音概率。

以某阈值对语音概率进行二元估计

语音概率也可以进行平滑：

另外，如果将语音不存在是的噪声估计也做滑动平均，也就是

可以得到最终的噪声概率估计公式：

后验信噪比的估计比较直接，就是带噪信号功率与估计噪声功率之比：。然后。

先验信噪比是纯净信号功率与噪声功率之比，无法直接得知，需要更进一步估计。一种方法是简单谱减法，从功率角度。因此

更精确的方法是判决引导法（Decision-directed approach），滑动平均

参考文献

[1] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2007.

171 评论 1小时前发布

红颜一笑吧

常用的语音增强算法分为如下几类：基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法。这里只是介绍一下各种语音增强方法流程，待确定方向之后再深入研究。语音增强不但与语音信号数字处理理论有关，而且涉及到人的听觉感知和语音学范畴。再者，噪声的来源众多，因应用场合而异，它们的特性也各不相同。所以必须针对不同噪声，采用不同的语音增强对策。某些语音增强算法在实际应用中己经证明是有效的，它们大体上可分为四类：噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。

194 评论 2小时前发布

透明的黑布

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

语音识别技术概述

作者：刘钰马艳丽董蓓蓓

摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前，语音识别方面的困难主要表现在：

(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献：

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

300 评论 12小时前发布

语音增强算法研究论文

3个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序