声纹识别论文文献综述

3个回答默认排序

默认排序

按时间排序

7爷爱美食

已采纳

本次最强大脑人机挑战的项目是听声识人，背后的技术背景是声纹识别技术。实际上声纹识别是一种行为识别技术，是通过测试、采集声音的波形和变化，与登记过的声音模板进行匹配。该项技术最早由40年代末的贝尔实验室开发，主要用于军事情报领域。随着技术发展，逐步在法医鉴定、法庭证据等领域得到广泛使用。声纹识别的理论基础每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。这种特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。就像指纹一样，每个人的声音也就有独特的特征。第二个因素是发声器官被操纵的方式，发声器官之间相互作用就会产生清晰的语音。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。小度声纹识别技术解析最强大脑中，小度机器人拥有的声纹识别技术，实际上属于动态声音实时检测技术，同时还包括VAD、降噪、去混响等（VAD的目的是检测是不是人的声音，降噪和去混响是排除环境干扰）。考虑到挑战场景是从合唱团中找到特点的人声，难点在于如何对语音信号中说话人相关的信息提取和表示，以及如何去区分类似人声的细微差异。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行：对于收集到的语音，首先会进行有效语音检测（VAD），将收集到的语音中非有效部分的语音进行切除，然后进行声学特征提取。由于语音信号是一种短时非平稳不定长的信号，因此一般提取特征都是采取加窗得到以帧为单位的特征。目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP，以及目前火热的基于深度学习的特征deep feature。在得到声学特征之后，就是说话人信息的进一步提取。这里采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经中国络算法。通过建模后，我们就能够对语音进行更深层次的特征表示，使得说话人相关的信息进一步被呈现。最后得到的模型，就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。这样，我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。（在实际的比赛过程中，21个合唱队员在进行唱歌时，我们通过分别将这21个队员的唱歌声音送入到该模型中，最后得到21个能够表征这些队员信息的模型）。识别匹配阶段就相对容易理解了，在采集到测试语音之后，进行相应的特征提取操作，然后通过与模版库里面的所有模板样本进行相似距离计算，然后选择距离最近的一个作为最后的判决结果。（在实际比赛过程中，这就相当于三次测试，每次测试，我们将线人的暗号语音送入到模型中，提取特征，然后再分别与21个模型进行打分比较，得分最高者即是机器认为的最有可能的线人）。整个过程如下图所示：本次声纹识别的难度可能大家最感兴趣的是，最强人工智能的小度和我们的小选手小宝3题只对了1题。这里我简单说下影响大家发挥的因素，如下： 1、噪音问题 2、多人唱歌 3、声音记忆遗忘 4、特征迁移排名第一的是噪音问题，包括现场噪音和音乐噪音，这个比上场人脸识别的影响更大（上期存在着光线的影响），音乐本身也会影响机器和选手的判断；第二是多人唱歌，众所周知，声纹的识别主要靠频谱特征，而多人会出现频谱混叠的现象，使得特征分离和识别难度较大；第三，主要是对人类选手的影响，一般的人记忆时间的序列会比空间的要难，尤其是在记忆三串声音序列后，容易出现混淆，这也是为什么doctorWei一再希望小宝多听几遍的原因；最后说下特征迁移，挑战中是通过记忆说话，到辨识唱歌。而往往人们说话和唱歌声纹是不同的，这就存在一个特征迁移的问题，对应到我们的两位选手需要一定的归纳推理能力。以上4个因素使得最终结果不是那么完美，但是也正是这些不完美才会让我们在技术上不断进步，不断超越过去的自己

132 评论 1小时前发布

江苏友道木业

声纹识别技术原理是利用声音的独特性来识别人物的，声纹识别简单地说，就是通过声音进行说话人身份识别的过程。语音信号之所以被形容为“形简意丰”，是因为声音包含有内容、身份、情感、年龄及健康状况等丰富的信息。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，理论上说，每个人说话时的短时频谱特征、声源特征、时序动态特征、韵律特征、语言学特征等都有差异，因此声纹就像指纹一样具有唯一性和独特性，可以进行识别。

声纹识别具有的优势。

1、声纹识别在金融领域的很多应用场景都是高频使用，对用户体验方面的需求较高，如果验证方式较为繁琐，往往用户难以接受，声音信息一般不涉及用户隐私问题，声音采集通过一个麦克风或者电话、手机就可完成，用户的接受度比较高；

2、更重要的是，声纹不易纂改，再加之声音信号中含有语言信息、副语言信息和非语言信息，综合利用声音中蕴含的丰富信息可以具备较高的安全特性。

以上内容参考人民网——闻声识人：声纹识别让金融安全听得见

207 评论 9小时前发布

小小暖和

姓名：陈心语学号：21009102266 书院：海棠1号书院转自：人工智能技术在声纹识别方面的应用|解读技术-云+社区-腾讯云() 【嵌牛导读】本文介绍了人工智能在声纹识别方面的应用。【嵌牛鼻子】人工智能运用于声纹识别。【嵌牛提问】人工智能在声纹识别方面中有什么运用呢？【嵌牛正文】人工智能技术对于传统产业的推进作用越来越凸显，极大提升了传统产品的商业价值。“听声识我，开口即播”长虹CHiQ5人工智能电视成为全球首款搭载声纹识别的人工智能电视，可以直接通过每个人说话的声音不同而区分目前使用电视用户是谁，从而实现内容的精准推荐。无需借助遥控和手机等智能设备，通过识别家庭成员的声纹来控制电视。语音助手配备海量语音库，使用语义模糊识别功能，即使说错片名也能自动识别出你想要的内容，但是当人们在观看某一节目的时候谈论提及其他电视节目名称，语音助手功能识别后当即转换到另一个节目影响正常节目的观看。但是在价格方面，55寸售价7597元，65寸售价13997元，75寸售价21997元，价格过高难以普及，但是也从侧面证明人工智能确实可以提升产品附加值。目前人工智能发力的领域主要集中在指纹、脸、声音、眼睛等等，都是人和人之间相互区分的独一无二的标识上，称之为“生物特征”。声音就是这种一种可以反映人身份的生物特征，参考“指纹”的命名方式，可以叫它“声纹”。声纹是指人类语音中携带言语信息的声波频谱，它同指纹一样，具备独特的生物学特征，具有身份识别的作用，不仅具有特定性，而且具有相对的稳定性。声音信号是一维连续信号，将它进行离散化后，就可以得到我们现在常见的计算机可以处理的声音信号。在实际应用中，声纹识别也存在一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。尽管如此，与其他生物特征相比，声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高;(2)获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率;……等等。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐，声纹识别的世界市场占有率，仅次于指纹和掌纹的生物特征识别，并有不断上升的趋势。声纹识别（也称说话人识别）技术也如同现在在智能手机上应用十分广泛的指纹识别技术一样，从说话人发出的语音信号中提取语音特征，并据此对说话人进行身份验证的生物识别技术。每个人都具有独一无二的声纹，这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似，声纹其实都是具有显著区别的。声纹识别(Voiceprint Recognition, VPR)，也称为说话人识别(Speaker Recognition)，有两类，即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的，是"多选一"问题;而后者用以确认某段语音是否是指定的某个人所说的，是"一对一判别"问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，这就是所谓的"训练"或"学习"过程。现实生活中的“未见其人，先闻其声”就是人类通过声音去识别另一个人身份的真实描述，虽然目前计算机还做不到通过一个字就判断出人的身份，但是利用大量的训练语音数据，可以学出一个“智商”还不错的“声纹”大脑，它在你说出8-10个字的情况下可以判断出是不是你在说话，或者在你说1分钟以上的话后，就可以准确地判断出你是否是给定的1000人中的一员。这里面其实包含了大部分生物识别系统都适用的重要概念：1：1 和 1：N，同时也包含了只有在声纹识别技术中存在的独特的概念：内容相关和内容无关。对于一个生物识别系统而言，如果它的工作模式是需要你提供自己的身份（账号）以及生物特征，然后跟之前保存好的你本人的生物特征进行比对，确认两者是否一致（即你是不是你），那么它是一个1：1的识别系统（也可以叫说话人确认，Speaker Verification）；如果它只需要你提供生物特征，然后从后台多条生物特征记录中搜寻出哪个是你（即你是谁），或者哪个都不是你，那么它是一个1：N的识别系统（也可以叫辨认，Speaker Identification）。技术上，简单的声纹识别的系统工作流程图。对于声纹识别系统而言，如果从用户所说语音内容的角度出发，则可以分为内容相关和内容无关两大类技术。顾名思义，“内容相关”就是指系统假定用户只说系统提示内容或者小范围内允许的内容，而“内容无关”则并不限定用户所说内容。前者只需要识别系统能够在较小的范围内处理不同用户之间的声音特性的差异就可以，由于内容大致类似，只需要考虑声音本身的差异，难度相对较小；而后者由于不限定内容，识别系统不仅需要考虑用户声音之间的特定差异，还需要处理内容不同而引起的语音差异，难度较大。目前有一种介于两者之间的技术，可以称之为“有限内容相关”，系统会随机搭配一些数字或符号，用户需正确念出对应的内容才可识别声纹，这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异，这种特性正好与互联网上广泛存在的短随机数字串（如数字验证码）相契合，可以用来校验身份，或者和其他人脸等生物特征结合起来组成多因子认证手段。具体到声纹识别算法的技术细节，在特征层面，经典的梅尔倒谱系数MFCC，感知线性预测系数PLP、深度特征Deep Feature、以及能量规整谱系数PNCC 等，都可以作为优秀的声学特征用于模型学习的输入，但使用最多的还是MFCC特征，也可以将多种特征在特征层面或者模型层面进行组合使用。在机器学习模型层面，目前还是在2009年提出的iVector框架一统天下，虽然在深度学习大红大紫的今天，声纹领域也难免被影响，在传统的UBM-iVector框架下衍化出了DNN-iVector，也仅仅是使用DNN（或者BN）提取特征代替MFCC或者作为MFCC的补充，后端学习框架依然是iVector。上图示出了一个完整的声纹识别系统的训练和测试流程，可以看到在其中iVector模型的训练以及随后的信道补偿模型训练是最重要的环节。在特征阶段，可以使用BottleNeck特征取代或者补充MFCC特征，输入到iVector框架中训练模型。在系统层面，不同的特征及模型，可以从不同的维度刻画说话人的声音特征，加上有效的分数规整，将各子系统融合能有效的提高系统的整体性能。

132 评论 12小时前发布

声纹识别论文文献综述

3个回答 默认排序 默认排序 按时间排序

相关问答

职称论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序