• 回答数

    3

  • 浏览数

    239

黑崎龍少
首页 > 期刊论文 > 声纹识别技术论文

3个回答 默认排序
  • 默认排序
  • 按时间排序

王道之战约定

已采纳

从《人民的名义》看声纹识别技术在案件侦查中的应用

被号称为“史上最大尺度反腐剧”的《人民的名义》即将收官,播出期间,该剧一直备受好评。除了曲折的故事情节之外,该剧最大的看点就是公安机关曲折的案件侦查过程,只不过因为剧中涉及到了贪污受贿犯罪案件、刑事案件、经济案件等一系列犯罪事件,错综复杂的关联和故事情节给案件侦查带来了巨大的麻烦。

下面这一幕,相信大家对还有印象:

在《人民的名义》第21集,剧中反贪局长侯亮平与京州市公安局局长赵东来一行在拳击场就陈海车祸案件进行探讨分析时,陈海在车祸前共接到两个举报电话,京州公安局将两个电话交由不同技术部门进行了两次鉴定,得出了两个举报人的声音并非是举报人蔡成功同一个人。

显然,声音的鉴定给公安机关提供了侦查案件的关键证据和调查方向。

随着科技的发展,尤其是生物科技的不断发展并逐渐广泛应用,包括人脸、指纹、掌纹、声纹等生物特征类证据已成为公安和司法机关破案侦查的重要证据之一,在热播的《人民的名义》中,声音就成了调查原汉东省检察院反贪局局长陈海车祸案件的重要线索。

这种通过提取说话人声纹特征来辨别身份的技术被称为声纹识别,特别适用于在无法当面见到当事人的情况。

声纹识别是如何辨别说话人身份的?

众所周知,每个人发音讲话都是通过鼻腔、口舌、声道、胸肺几大器官多重配合的结果,不同人声音的频率、音色、语调甚至口音等特质组成了独特的声纹图谱,包含音质、音长、音强、音高等,通过对这些特征的比对,从而能够实现身份的认证。

声纹识别的过程就是通过录音设备把声音信号转换成电信号,再用信号处理算法提取以上特征,然后使用机器学习算法来识别说话人的身份。这种技术最早40年代末由贝尔实验室开发,主要用于战争时期军事情报领域,技术要求很高,随着科技的发展目前已经开始逐渐被应用到了案件侦查以及金融等商业应用。

声纹识别与身份安全解决方案提供商快商通分析介绍:“在《人民的名义》剧情中,公安刑侦人员通过分析两段电话录音中的音素,比对两段音频中共同音素的频谱,判断两个音素是否来自于同一人。通常来说,如果两段音频存在20个匹配的特征点,那就可以推断是同一人的声音,反之则是不同人的声音。这是声纹身份验证应用中的1:1比对方式”,它的目的是确认语音是否来自某个人,也就是说话人的确认。

此外,在声纹领域还有一种方式是通过1:N的方式来进行声纹对比,它是将一个人的声音与现有声纹数据库中的声纹数据进行对比,进而找出最有可能的说话人,简单来说就是判断语音是哪个人说的,也被称为说话人辨认。这种方式在重点人群监控、犯罪嫌疑人排查以及案件司法证据鉴定方面广泛运用。

快商通表示,过去声纹识别的对比通常采用人工经验,通常情况下通过人工进行对比2~15分钟的音频需要半天到一天的时间。现在通过人工智能,采用机器学习的自动化方法,通过大数据样本序列进行自动化分析,只需要数秒就能判定出结果。更先进的科技技术,也带来了更高效、智能、安全可靠的鉴别服务。

事实上,就如《人民的名义》里所讲的一样,声纹鉴定如今已成为公安司法机关检查办案的关键证据之一,通过语音声纹的对比分析鉴定,可以锁定嫌疑人,进而查找出嫌疑人的性别、年龄、户籍等重要信息,为侦查破案工作提供线索,从而大幅度提高了公安机关的办案效率,降低了办案成本。

国内声纹识别创业公司已经领先全球

声纹识别的准确率是声纹识别最重要的指标之一,全球主要的声纹识别技术厂商都在不断努力提升这一指标。

据了解,在日常环境中使用短语音进行注册和验证,快商通的算法核心指标已经突破99.6%的准确率,达到了世界领先水平,这也标志着快商通的声纹识别技术能够进行大规模的行业应用。从当前世界范围内发表的学术论文看,目前国内还没有第二家企业的声纹识别算法能够达到这一准确率。

这家公司又是什么来头呢?

快商通创立于2009年,公司近300余人,总部位于厦门,上海、深圳、新加坡等地有办事机构和子公司。厦门市人工智能行业协会发起单位、会长单位。获得2019年“吴文俊人工智能科学技术进步奖”、“厦门市科学技术进步奖”等。

2012年开始投入声纹识别和自然语言处理技术研究。获得2018年由美国国家标准局举办的全球声纹大赛(NIST SRE 2018)全球第三名、大中华区第一名;获得由GA部、工信部、网信办联合举办的中国人工智能大赛的“声纹识别”和“同源音频指纹检索”项目的全球第三名和第二名。在金融反诈领域,快商通领衔全国1:N声纹检索能力,在算法、数据、落地经验、算法引擎架构能力等方面,独占鳌头。在医疗教育领域,快商通凭借语义分析和多轮对话技术,占领全国医疗教育智能对话市场80%以上顶端客户。

153 评论

yuqian1004

:♂大梦方觉晓 的资料很好,只要稍做改动再完善就可以了。

315 评论

玉米卧熊

姓名:陈心语  学号:21009102266 书院:海棠1号书院 转自: 人工智能技术在声纹识别方面的应用|解读技术-云+社区-腾讯云(tencent.com) 【嵌牛导读】本文介绍了人工智能在声纹识别方面的应用。 【嵌牛鼻子】人工智能运用于声纹识别。 【嵌牛提问】人工智能在声纹识别方面中有什么运用呢? 【嵌牛正文】 人工智能技术对于传统产业的推进作用越来越凸显,极大提升了传统产品的商业价值。“听声识我,开口即播”长虹CHiQ5人工智能电视成为全球首款搭载 声纹识别 的人工智能电视,可以直接通过每个人说话的声音不同而区分目前使用电视用户是谁,从而实现内容的精准推荐。无需借助遥控和手机等智能设备,通过识别家庭成员的声纹来控制电视。语音助手配备海量语音库,使用语义模糊识别功能,即使说错片名也能自动识别出你想要的内容,但是当人们在观看某一节目的时候谈论提及其他电视节目名称,语音助手功能识别后当即转换到另一个节目影响正常节目的观看。但是在价格方面,55寸售价7597元,65寸售价13997元,75寸售价21997元,价格过高难以普及,但是也从侧面证明人工智能确实可以提升产品附加值。 目前人工智能发力的领域主要集中在指纹、脸、声音、眼睛等等,都是人和人之间相互区分的独一无二的标识上,称之为“生物特征”。声音就是这种一种可以反映人身份的生物特征,参考“指纹”的命名方式,可以叫它“声纹”。 声纹是指人类语音中携带言语信息的声波频谱,它同指纹一样,具备独特的生物学特征,具有身份识别的作用,不仅具有特定性,而且具有相对的稳定性 。声音信号是一维连续信号,将它进行离散化后,就可以得到我们现在常见的计算机可以处理的声音信号。 在实际应用中,声纹识别也存在一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取;……等等。尽管如此,与其他生物特征相比,声纹识别的应用有一些特殊的优势:(1)蕴含声纹特征的语音获取方便、自然,声纹提取可在不知不觉中完成,因此使用者的接受程度也高;(2)获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;(3)适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;(4)声纹辨认和确认的算法复杂度低;(5)配合一些其他措施,如通过 语音识别 进行内容鉴别等,可以提高准确率;……等等。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐,声纹识别的世界市场占有率15.8%,仅次于指纹和掌纹的生物特征识别,并有不断上升的趋势。 声纹识别(也称说话人识别)技术也如同现在在智能手机上应用十分广泛的指纹识别技术一样,从说话人发出的语音信号中提取语音特征,并据此对说话人进行身份验证的生物识别技术。每个人都具有独一无二的声纹,这是由我们的发声器官在成长过程中逐渐形成的特征。无论别人对我们的说话模仿的多么相似,声纹其实都是具有显著区别的。声纹识别(Voiceprint Recognition, VPR),也称为说话人识别(Speaker Recognition),有两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是"多选一"问题;而后者用以确认某段语音是否是指定的某个人所说的,是"一对一判别"问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,这就是所谓的"训练"或"学习"过程。 现实生活中的“未见其人,先闻其声”就是人类通过声音去识别另一个人身份的真实描述,虽然目前计算机还做不到通过一个字就判断出人的身份,但是利用大量的训练语音数据,可以学出一个“智商”还不错的“声纹”大脑,它在你说出8-10个字的情况下可以判断出是不是你在说话,或者在你说1分钟以上的话后,就可以准确地判断出你是否是给定的1000人中的一员。这里面其实包含了大部分生物识别系统都适用的重要概念:1:1 和 1:N,同时也包含了只有在声纹识别技术中存在的独特的概念:内容相关和内容无关。 对于一个生物识别系统而言,如果它的工作模式是需要你提供自己的身份(账号)以及生物特征,然后跟之前保存好的你本人的生物特征进行比对,确认两者是否一致(即你是不是你),那么它是一个1:1的识别系统(也可以叫说话人确认,Speaker Verification);如果它只需要你提供生物特征,然后从后台多条生物特征记录中搜寻出哪个是你(即你是谁),或者哪个都不是你,那么它是一个1:N的识别系统(也可以叫辨认,Speaker Identification)。 技术上,简单的声纹识别的系统工作流程图。 对于声纹识别系统而言,如果从用户所说语音内容的角度出发,则可以分为内容相关和内容无关两大类技术。顾名思义,“内容相关”就是指系统假定用户只说系统提示内容或者小范围内允许的内容,而“内容无关”则并不限定用户所说内容。前者只需要识别系统能够在较小的范围内处理不同用户之间的声音特性的差异就可以,由于内容大致类似,只需要考虑声音本身的差异,难度相对较小;而后者由于不限定内容,识别系统不仅需要考虑用户声音之间的特定差异,还需要处理内容不同而引起的语音差异,难度较大。 目前有一种介于两者之间的技术,可以称之为“有限内容相关”,系统会随机搭配一些数字或符号,用户需正确念出对应的内容才可识别声纹,这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异,这种特性正好与互联网上广泛存在的短随机数字串(如数字 验证码 )相契合,可以用来校验身份,或者和其他人脸等生物特征结合起来组成多因子认证手段。 具体到声纹识别算法的技术细节,在特征层面,经典的梅尔倒谱系数MFCC,感知线性预测系数PLP、深度特征Deep Feature、以及能量规整谱系数PNCC 等,都可以作为优秀的声学特征用于模型学习的输入,但使用最多的还是MFCC特征,也可以将多种特征在特征层面或者模型层面进行组合使用。在机器学习模型层面,目前还是N.Dehak在2009年提出的iVector框架一统天下,虽然在深度学习大红大紫的今天,声纹领域也难免被影响,在传统的UBM-iVector框架下衍化出了DNN-iVector,也仅仅是使用DNN(或者BN)提取特征代替MFCC或者作为MFCC的补充,后端学习框架依然是iVector。 上图示出了一个完整的声纹识别系统的训练和测试流程,可以看到在其中iVector模型的训练以及随后的信道补偿模型训练是最重要的环节。在特征阶段,可以使用BottleNeck特征取代或者补充MFCC特征,输入到iVector框架中训练模型。 在系统层面,不同的特征及模型,可以从不同的维度刻画说话人的声音特征,加上有效的分数规整,将各子系统融合能有效的提高系统的整体性能。

114 评论

相关问答

  • 声学技术是个什么级别的期刊

    一类期刊是国家级的核心期刊,二类的是除国家级核心期刊之外的其它核心期刊,三类的就是普通期刊。 按这个分的基本是地方性的机构的一种分法,每个地方的分类不太一样。

    蛋爹是石头 5人参与回答 2023-12-07
  • 公安指纹识别技术毕业论文

    随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读! 图像识别技术研究综述 摘要:随着图像处理技术的迅速发展,图像

    德古拉之吻~ 4人参与回答 2023-12-08
  • 指纹识别论文答辩题目怎么写

    备论文答辩。首先,要写好毕业论文的简介,主要内容应包括论文的题目,指导教师姓名,选择该题目的动机,论文的主要论点、论据和写作体会以及本议题的理论意义和实践意义。

    逍遥黑猫 7人参与回答 2023-12-10
  • 图像识别技术的研究论文

    一、CCD图像传感器CCD(ChargedCoupledDevice)于1969年在贝尔试验室研制成功,之后由日本开始批量生产,经过30多年的发展历程,从初期的

    tinahe0101 6人参与回答 2023-12-05
  • 图像识别技术论文答辩

    主要应用领域图像识别技术可能是以图像的主要特征为基础的,每个图像都有它的特征。在人类图像识别系统中,对复杂图像的识别往往要通过不同层次的信息加工才能实现。图像识

    曹婕倩风恬 6人参与回答 2023-12-12