声纹识别毕业论文

3个回答默认排序

默认排序

按时间排序

莮Renissodifficult

已采纳

姓名：陈心语学号：21009102266 书院：海棠1号书院转自：人工智能技术在声纹识别方面的应用|解读技术-云+社区-腾讯云() 【嵌牛导读】本文介绍了人工智能在声纹识别方面的应用。【嵌牛鼻子】人工智能运用于声纹识别。【嵌牛提问】人工智能在声纹识别方面中有什么运用呢？【嵌牛正文】人工智能技术对于传统产业的推进作用越来越凸显，极大提升了传统产品的商业价值。“听声识我，开口即播”长虹CHiQ5人工智能电视成为全球首款搭载声纹识别的人工智能电视，可以直接通过每个人说话的声音不同而区分目前使用电视用户是谁，从而实现内容的精准推荐。无需借助遥控和手机等智能设备，通过识别家庭成员的声纹来控制电视。语音助手配备海量语音库，使用语义模糊识别功能，即使说错片名也能自动识别出你想要的内容，但是当人们在观看某一节目的时候谈论提及其他电视节目名称，语音助手功能识别后当即转换到另一个节目影响正常节目的观看。但是在价格方面，55寸售价7597元，65寸售价13997元，75寸售价21997元，价格过高难以普及，但是也从侧面证明人工智能确实可以提升产品附加值。目前人工智能发力的领域主要集中在指纹、脸、声音、眼睛等等，都是人和人之间相互区分的独一无二的标识上，称之为“生物特征”。声音就是这种一种可以反映人身份的生物特征，参考“指纹”的命名方式，可以叫它“声纹”。声纹是指人类语音中携带言语信息的声波频谱，它同指纹一样，具备独特的生物学特征，具有身份识别的作用，不仅具有特定性，而且具有相对的稳定性。声音信号是一维连续信号，将它进行离散化后，就可以得到我们现在常见的计算机可以处理的声音信号。在实际应用中，声纹识别也存在一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。尽管如此，与其他生物特征相比，声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高;(2)获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率;……等等。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐，声纹识别的世界市场占有率，仅次于指纹和掌纹的生物特征识别，并有不断上升的趋势。声纹识别（也称说话人识别）技术也如同现在在智能手机上应用十分广泛的指纹识别技术一样，从说话人发出的语音信号中提取语音特征，并据此对说话人进行身份验证的生物识别技术。每个人都具有独一无二的声纹，这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似，声纹其实都是具有显著区别的。声纹识别(Voiceprint Recognition, VPR)，也称为说话人识别(Speaker Recognition)，有两类，即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的，是"多选一"问题;而后者用以确认某段语音是否是指定的某个人所说的，是"一对一判别"问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，这就是所谓的"训练"或"学习"过程。现实生活中的“未见其人，先闻其声”就是人类通过声音去识别另一个人身份的真实描述，虽然目前计算机还做不到通过一个字就判断出人的身份，但是利用大量的训练语音数据，可以学出一个“智商”还不错的“声纹”大脑，它在你说出8-10个字的情况下可以判断出是不是你在说话，或者在你说1分钟以上的话后，就可以准确地判断出你是否是给定的1000人中的一员。这里面其实包含了大部分生物识别系统都适用的重要概念：1：1 和 1：N，同时也包含了只有在声纹识别技术中存在的独特的概念：内容相关和内容无关。对于一个生物识别系统而言，如果它的工作模式是需要你提供自己的身份（账号）以及生物特征，然后跟之前保存好的你本人的生物特征进行比对，确认两者是否一致（即你是不是你），那么它是一个1：1的识别系统（也可以叫说话人确认，Speaker Verification）；如果它只需要你提供生物特征，然后从后台多条生物特征记录中搜寻出哪个是你（即你是谁），或者哪个都不是你，那么它是一个1：N的识别系统（也可以叫辨认，Speaker Identification）。技术上，简单的声纹识别的系统工作流程图。对于声纹识别系统而言，如果从用户所说语音内容的角度出发，则可以分为内容相关和内容无关两大类技术。顾名思义，“内容相关”就是指系统假定用户只说系统提示内容或者小范围内允许的内容，而“内容无关”则并不限定用户所说内容。前者只需要识别系统能够在较小的范围内处理不同用户之间的声音特性的差异就可以，由于内容大致类似，只需要考虑声音本身的差异，难度相对较小；而后者由于不限定内容，识别系统不仅需要考虑用户声音之间的特定差异，还需要处理内容不同而引起的语音差异，难度较大。目前有一种介于两者之间的技术，可以称之为“有限内容相关”，系统会随机搭配一些数字或符号，用户需正确念出对应的内容才可识别声纹，这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异，这种特性正好与互联网上广泛存在的短随机数字串（如数字验证码）相契合，可以用来校验身份，或者和其他人脸等生物特征结合起来组成多因子认证手段。具体到声纹识别算法的技术细节，在特征层面，经典的梅尔倒谱系数MFCC，感知线性预测系数PLP、深度特征Deep Feature、以及能量规整谱系数PNCC 等，都可以作为优秀的声学特征用于模型学习的输入，但使用最多的还是MFCC特征，也可以将多种特征在特征层面或者模型层面进行组合使用。在机器学习模型层面，目前还是在2009年提出的iVector框架一统天下，虽然在深度学习大红大紫的今天，声纹领域也难免被影响，在传统的UBM-iVector框架下衍化出了DNN-iVector，也仅仅是使用DNN（或者BN）提取特征代替MFCC或者作为MFCC的补充，后端学习框架依然是iVector。上图示出了一个完整的声纹识别系统的训练和测试流程，可以看到在其中iVector模型的训练以及随后的信道补偿模型训练是最重要的环节。在特征阶段，可以使用BottleNeck特征取代或者补充MFCC特征，输入到iVector框架中训练模型。在系统层面，不同的特征及模型，可以从不同的维度刻画说话人的声音特征，加上有效的分数规整，将各子系统融合能有效的提高系统的整体性能。

353 评论 2小时前发布

himawari30

声纹识别，也叫做说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数，来识别语音说话者身份的技术。由于每个人的发声器官（舌、牙齿、喉头、肺、鼻腔）在尺寸和形态方面不尽相同，因此声纹也就成为一种鉴别说话人身份的识别手段。

声纹识别系统通过采集语音，提取声纹特征，训练模型并建立声纹模型库，把待识别的语音和声纹模型库进行比对，从而实现对说话人的识别。声纹识别系统一般包括两个步骤：声纹建模和声纹验证，典型的声纹识别系统如下图所示。声纹建模过程中涉及到的语音文件采集就是所谓的声纹采集。

在声纹识别的过程中，建立庞大有效的声纹数据库并对数据进行精确标注就成了基础且重要的一环。但在实际的声纹采集过程中，由于不同的设备、不同的信道等等的差异，声纹数据库质量往往参差不齐，这些质量问题往往会影响算法模型的建立，从而导致识别准确率的降低。

为了确保入库声纹的质量，就需要通过科学、系统的研究来制定针对自然人的声纹信息标准采集流程，同时研制标准声纹采集设备，建立可操作的标准声纹采集流程，为声纹库建设提供标准支撑，也确保采集入库的各个声纹能够发挥应有的价值。标准声纹采集设备应该特别注重以下几个方面:

通过标准声纹采集设备，就可以采集到符合各类声纹建库要求的高质量声纹数据要求，为声纹识别、声纹鉴定和比对提供坚实的基础。

标准声纹采集设备这里推荐快商通推出的标准声纹采集设备，它是专门为标准声纹采集场景研发的声纹采集设备，采用智能化麦克风集群，支持单向/全向拾音、多种文本采集方式。配套集采集、多标签入库、分类存储、实时检索功能于一体智能化声纹采集系统，可连续性创建采集，批量入库，缩短多人采集入库时间成本，保证声纹信息采集内容的完整性和真实性，提高声纹采集的质量和效率。一次语音录入即可采集到符合公安机关声纹建库要求的高质量声纹数据，为声纹鉴定和比对提供坚实的基础

324 评论 10小时前发布

郁敏0729

声纹，也称 “ 语图 ” ，是由专用的电声转换仪器（语图仪）将声波特征绘制成的波谱图形。声纹鉴定就是把未知人的语声和已知人的语声，通过语图仪分别制成声纹图谱，再依据声纹图上的特征进行分析、比较和判断，确定二者是否为同一人的语声。它是文检技术中近些年发展起来的语音识别的先进科学手段。

目前，许多国家都己把声纹鉴定作为辨认犯罪嫌疑人的重要手段，为侦查工作提供新的线索和证据。

（ 1 ）在获得了犯罪人的语声录音资料时，如在中进行的恐吓、勒索，或在其他性质的犯罪中录到了罪犯说话的声音，那么可以通过收集嫌疑人语音样本进行声纹鉴定，为认定或否定犯罪人提供鉴定结论。

（ 2 ）在案件的侦讯或审理中（包括民事案件），通过声纹鉴定可以审查录音证据材料的其伪。

（ 3 ）通过声纹分析，判断说话人的性别、年龄、方言（生活地区）特征，为侦查工作提供方向和范围。

目前，国际声纹鉴定并行两套系统：

一是声纹的自动识别系统，它以电子计算机为主体，具备分析、储存、检索、鉴定多项功能，可以根据语声进行全自动分析，最后给出结论。但这种结论的准确性同专家设定的特征吻合量（阈值）有关。

二是声纹的人工识别系统，它以语图仪为支持，鉴定人直接观察和分析声纹，寻找特征，测量数据并进行比较与评断，最后得出结论。在声纹资料的存储技术上，已发展到激光光盘存储。先以激光源对待储声纹图谱进行扫描，获得付利叶光谱，再通过电脑把光谱记录的声纹特征转换成数据，最后通过电脑控制的激光针将待储声纹特征的数据存入光盘纹线中。当需检索时，再用激光针通过电脑系统输出光盘中的信号，即可进行声纹比较。这种存储技术容量很大，一张光盘可以储存数百万人的声纹。

国内也有一些专业公司，可提供声纹鉴定软件和服务。如厦门的快商通，凭借其在声纹技术领域的技术积累并结合以往成功的声纹鉴定经验，其研发的声纹鉴定分析系统可进行录音资料的有效声纹鉴定，提供的服务包括：录音资料话者同一性认定；录音资料内容辨识；录音资料的真实性完整性鉴定；录音资料降噪处理等。

1.采集检材

在采集犯罪人或证人的语声作检材时，录音宜采用高保真录音机。天聪采集语声的要求是： ①录音应当尽量在不被对方发觉的情况下进行，以减少假象的干扰，保证语声的真实； ②应尽量防止环境噪声和录音设备的干扰。麦克风与被录对象保持适当距离。尽量不用失真大的袖珍盒式录音机，电源最好用市电，保持电流稳定。电话录音时应使用传感器，不要将听筒直接对着“麦克”录音。磁带应选用优质新带。

2.采集样本

除了遵照采取检材时要求的器材和注意事项外，应尽量保持同采集检材时相同、相近的语声环境、距离、设备及速度；并建议在样本中有与检材相同的词句，以供特征比对。

3.审听和选择

鉴定人员要先对捡材和样本分别反复审听和记录，从中选择正常而清晰的语声段落，再进一步选取相同的字、词、句，作为供比较的部分。然后使用语图仪分别将选好的检材与样本中的字、词、句做出声纹图。

4.声纹特征

在被比较的两种声纹图谱中，分别选取明显、稳定的特征作为比较特征。一般说，共振峰的频率值及其走向是最稳定的特征，而且具有很强的特定性，利用价值最高；而时长、音强、波形等特征稳定性较差，可做参考。在天聪鉴定过程中，还可以从同一个人的语声中选择多个相同字、词或句的语图，在分析比较中抓住其稳定而特殊的特征作为依据。

5.比较

比对检材与样本中相同字、词的声纹中的同类特征（如共振峰频率、走向及波形），进行比较分析，找出相同点和差异点。

6.综合评断

①如果被比较的全部特征完全吻合；或者稳定性强的特征完全吻合，而只是稳定性差的特征有些差异，均可做同一认定结论；

②如果被比较的稳定性强的特征差异较大，还可以补充样本再做语图比较，倘仍有差异，又无法解释，则可做否定结论。

7.送检

说话人在不同的环境和不同的心态下，以及不同的语气、不同的健康状况都会引起语音的某些变异。录音环境（噪音、回声、距离）的干扰以及录音设备不良，也会使录制的语音产生假性变异。因此，送检时，要把录制检材和样本时的环境状况、录制距离、录制方式、使用机器、以及在什么情况下录制等情况加以详细记载，一并提交鉴定人，以便对差异点进行客观的分析评断。

298 评论 12小时前发布

声纹识别毕业论文

3个回答 默认排序 默认排序 按时间排序

相关问答

职称论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序