基于汉语元音分类的多维特征说话人辨认研究
摘 要:由于说话人的语音特征和个性特征到目前为止无法很好地分离,本文提出了基于语音分类的说话人多维特征的提取方法,将语音识别技术应用到说话人特征提取上,提取出的N维组合特征较其它普通特征有更高的有效性。该方法从汉语语音的特点出发,对基于汉语的说话人识别进行研究。实验结果表明它的有效性较长时平均特征的有效性提高了2.915%。
关键词:说话人识别;语音识别技术;特征提取;汉语元音分类
1. 引言
说话人识别,是一项根据语音波形中反映说话人生理、心理和行为特征的语音参数,自动识别说话人身份的技术[1]。目前大量的科研机构对说话人识别进行了广泛而深入的研究,说话人识别现阶段取得了许多卓有成效的科研成果[2-6],常用模型有高斯混合模型(GMM),隐马尔可夫模型 (HMM),支持向量机模型(SVM)以及矢量量化模型(VQ),这些模型各有其优点,也都有自己的不足之处。
为了进一步提高说话人识别辨认系统的性能,本文将从汉语语音自身结构的特点出发,将语音识别技术应用到说话人识别技术上,提出了基于汉语语音分类的说话人多维特征的提取方法。首先对语音进行分类识别,然后根据类别特征提取多维说话人特征,最后通过实验验证了本文提出的方法的有效性。
2. 语音分类识别方法
现代汉语语音的基础是汉语拼音,由10个元音和22个辅音组成,共计21个声母和38个韵母[7]。汉语语音中的韵母都是由单元音音素(a, o, e, i, u, ü)组合而成,一个复韵音中包含了两个或者两个以上的单元音音素,在发音过程中声道形状会由前一个音素向后一个音素滑动,当到达音素声道位置后会有一个相对稳定的过程。因此,本文将说话人语音根据单元音音素分为六类,对分割出的语音进行分类识别,语音分类识别模型如图1所示。
2.1 语音的分割与特征提取
由于本文仅对语音内六个元音进行分割,而且所有的元音都是浊音[7-9],因此,语音的末点检测不存在什么困难。对于元音的起点检测也是困难不大,因为浊音较语音刚开始一段的辅音,能量一般都较大。采用短时能量和短时平均过零率的约束就能分割出所需要的语音,具体的约束条件如下:
2.2 语音的分类、识别与筛选
对标注的语音帧提取特征后,我们需要对选中的发音进行筛选、分类和识别。标注语音的特征都是以语音帧存在的,而文中要处理单个发音,因此必须判断一个发音的起始和结束位置。在语音帧上,连续被标注的一系列帧即可被看作一个发音,判别公式如下:
3. 基于语音分类技术的说话人特征提取
经过前面的处理后,我们把所有选中语音帧中所属类的特征作为一类特征集,这样语音模板中有N类特征(文中为六类),待测说话人的特征也将被分为N类。对每类特征集,求其均值中心作为说话人识别的特征矢量。
4. 实验结果与比较分析
本实验所用的语音数据均使用北京七九七公司生产的中音公司的MAYA44.V3专业数字音频卡采集,其采样频率为96kHz,采用24Bit量化。录音在普通实验室环境下进行,所录数据一部分用于训练,另一部分用于测试。语音信号先进行归一化,按照帧长取1024点,帧交叠30%,1-0.99Z-1预加重,时域计算加矩形窗,频域加汉宁窗。线性预测分析时采用20阶预测器阶数,然后根据公式(4)计算256个线性预测倒谱系数(LPCC),形成语音特征矢量序列。实验中特征类别为六类。
4.1 域值选取
语音分割时所需的短时能量和短时过零率的约束域值的选定我们采用实验的方法。如表1中所示,能量和过零率域值取最大值的百分数,是能量百分数;是过零率的百分数。R是正确判正率,W为错误判正率,RW为R与W的比值,所以其值越大结果越好。由于W不为0,所以实验中用一个小值0.1代替,又由于过零率百分数取大于0.2时结果比较好,故在实验中取0.1和0.8。
表1 能量和过零率域值选取的实验分布
热门论文热门推荐 |