关于语音识别智能家居的毕业论文

6个回答默认排序

默认排序

按时间排序

我们的季节e

已采纳

山东省大学生电子设计竞赛09年或是08年有个题目是《声音引导系统》，是利用凌阳公司的61板实现的声音控制，其中包括语音识别部分，你参考一下吧。有问题直接Hi我，我也算是略知一二吧，也拿过不少省奖。

195 评论 2小时前发布

鲜嫩的小豆芽

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

语音识别技术概述

作者：刘钰马艳丽董蓓蓓

摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前，语音识别方面的困难主要表现在：

(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献：

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

325 评论 4小时前发布

～凭凑不齐～

数字化家庭是未来智能小区系统的基本单元。所谓“数字化家庭”就是基于家庭内部提供覆盖整个家庭的智能化服务，包括数据通信、家庭娱乐和信息家电控制功能。数字化家庭设计的一项主要内容是通信功能的实现，包括家庭与外界的通信及家庭内部相关设施之间的通信。从现在的发展来看，外部的通信主要通过宽带接入。intenet，而家庭内部的通信，笔者采用目前比较具有竞争力的蓝牙(bluetootlh)无线接入技术。传统的数字化家庭采用pc进行总体控制，缺乏人性化。笔者根据人工情感的思想设计一种配备多种外部传感器的智能机器人，将此智能机器人视作家庭成员，通过它实现对数字化家庭的控制。本文主要就智能机器人在数字化家庭医疗保健方面的应用进行模型设计，在智能机器人与医疗仪器和控制pc的通信采用蓝牙技术。整个系统的成本较低，功能较为全面，扩展应用非常广阔，具有极大的市场潜力。2 智能机器人的总体设计2．1 智能机器人的多传感器系统机器人智能技术中最为重要的相关领域是机器人的多感觉系统和多传感信息的集成与融合[1]，统称为智能系统的硬件和软件部分。视觉、听觉、力觉、触觉等外部传感器和机器人各关节的内部传感器信息融合使用，可使机器人完成实时图像传输、语音识别、景物辨别、定位、自动避障、目标物探测等重要功能；给机器人加上相关的医疗模块(ccd、camera、立体麦克风、图像采集卡等)和专用医疗传感器部件，再加上医疗专家系统就可以实现医疗保健和远程医疗监护功能。智能机器人的多传感器系统框图如图1所示。2．2 智能机器人控制系统机器人控制系统包含2部分：一是上位机，一般采用pc，它完成机器人的运动轨迹规划、传感器信息融合控制算法、视觉处理、人机接口及远程处理等任务；二是下位机，一般采用多单片机系统或dsp等作为控制器的核心部件，完成电机伺服控制、反馈处理、图像处理、语音识别和通信接口等功能。如果采用多单片机系统作为下位机，每个处理器完成单一任务，通过信息交换和相互协调完成总体系统功能，但其在信号处理能力上明显有所欠缺。由于dsp擅长对信号的处理，而且对此智能机器人来说经常需要信号处理、图像处理和语音识别，所以采用dsp作为智能机器人控制系统的控制器[2]。控制系统以dsp(tms320c54x)为核心部件，由蓝牙无线通信、gsm无线通信(支持gprs)、电机驱动、数字罗盘、感觉功能传感器(视觉和听觉等)、医疗传感器和多选一串口通信(rs-232)模块等组成，控制系统框图如图2所示。 (1)系统通过驱动电机和转向电机控制机器人的运动，转向电机利用数字罗盘的信息作为反馈量进行pid控制。(2)采用爱立信(ericsson)公司的rokl01007型电路作为蓝牙无线通信模块，实现智能机器人与上位机pc的通信和与其他基于蓝牙模块的医疗保健仪器的通信。(3)支持gprs的gsm无线通信模块支持数据、语音、短信息和传真服务，采用手机通信方式与远端医疗监控中心通信。(4)由于tms320c54x只有1个串行口，而蓝牙模块、gsm无线模块、数字罗盘和视觉听觉等感觉功能传感器模块都是采用rs一232异步串行通信，所以必须设计1个多选一串口通信模块进行转换处理。当tms320c54x需要蓝牙无线通信模块的数据时通过电路选通；当t~ms320c54x需要某个传感器模块的数据时，关断上次无线通信模块的选通，同时选通该次传感器模块。这样，各个模块就完成了与1~ms320c54x的串口通信。3 主要医疗保健功能的实现智能机器人对于数字化家庭的医疗保健可以提供如下的服务：(1)医疗监护通过集成有蓝牙模块的医疗传感器对家庭成员的主要生理参数如心电、血压、体温、呼吸和血氧饱和度等进行实时检测，通过机器人的处理系统提供本地结果。(2)远程诊断和会诊通过机器人的视觉和听觉等感觉功能，将采集的视频、音频等数据结合各项生理参数数据传给远程医疗中心，由医疗中心的专家进行远程监控，结合医疗专家系统对家庭成员的健康状况进行会诊，即提供望(视频)、闻、问(音频)、切(各项生理参数)的服务[3]。3．1机器人视觉与视频信号的传输机器人采集的视频信号有2种作用：提供机器人视觉；将采集到的家庭成员的静态图像和动态画面传给远程医疗中心。机器人视觉的作用是从3维环境图像中获得所需的信息并构造出环境对象的明确而有意义的描述。视觉包括3个过程：(1)图像获取。通过视觉传感器(立体影像的ccd camera)将3维环境图像转换为电信号。(2)图像处理。图像到图像的变换，如特征提取。(3)图像理解。在处理的基础上给出环境描述。通过视频信号的传输，远程医疗中心的医生可以实时了解家庭成员的身体状况和精神状态。智能机器人根据医生的需要捕捉适合医疗保健和诊断需求的图像，有选择地传输高分辨率和低分辨率的图像。在医疗保健的过程中，对于图像传送有2种不同条件的需求：(1)医生观察家庭成员的皮肤、嘴唇、舌面、指甲和面部表情的颜色时，需要传送静态高清晰度彩色图像；采用的方法是间隔一段时间(例如5分钟)传送1幅高清晰度静态图像。(2)医生借助动态画面查看家庭成员的身体移动能力时，可以传送分辨率较低和尺寸较小的图像，采用的方法是进行合理的压缩和恢复以保证实时性。3．2机器人听觉与音频信号的传输机器人采集的音频信号也有2种作用：一是提供机器人听觉；二是借助于音频信号，家庭成员可以和医生进行沟通，医生可以了解家庭成员的健康状况和心态。音频信号的传输为医生对家庭成员进行医疗保健提供了语言交流的途径。机器人听觉是语音识别技术，医疗保健智能机器人带有各种声交互系统，能够按照家庭成员的命令进行医疗测试和监护，还可以按照家庭成员的命令做家务、控制数字化家电和照看病人等。声音的获取采用多个立体麦克风。由于声音的频率范围大约是300hz一3400hz，过高或过低频率的声音在一般情况下是不需要传输的，所以只用传送频率范围在1000hz-3000hz的声音，医生和家庭成员就可以进行正常的交流，从而可以降低传输音频信号所占用的带宽，再采用合适的通信音频压缩协议即可满足实时音频的要求。智能机器人的听觉系统如图3所示。3．3各项生理信息的采集与传输传统检测设备通过有线方式连到人体上进行生理信息的采集，各种连线容易使病人心情紧张，从而导致检测到的数据不准确。使用蓝牙技术可以很好地解决这个问题，带有蓝牙模块的医疗微型传感器安置在家庭成员身上，尽量使其不对人体正常活动产生干扰，再通过蓝牙技术将采集的数据传输到接收设备并对其进行处理。在智能机器人上安装1个带有蓝牙模块的探测器作为接收设备，各种医疗传感器将采集到的生理信息数据通过蓝牙模块传输到探测器，探测器有2种工作方式：一是将数据交给智能机器人处理，提供本地结果；二是与internet连接(也可以通过gsm无线模块直接发回)，通过将数据传输到远程医疗中心，达到医疗保健与远程监护的目的。视频和音频数据的传输也采用这种方式。智能机器人的数据传输系统如图4所示。4 蓝牙模块的应用4．1蓝牙技术概况蓝牙技术[4]是用于替代电缆或连线的短距离无线通信技术。它的载波选用全球公用的2．4ghz(实际射频通道为f=2402 k×1mhz，k=0，1，2，…，78)ism频带，并采用跳频方式来扩展频带，跳频速率为1600跳/s。可得到79个1mhz带宽的信道。蓝牙设备采用gfsk调制技术，通信速率为1mbit/s，实际有效速率最高可达721kbit/s，通信距离为10m，发射功率为1mw；当发射功率为100mw时，通信距离可达100m，可以满足数字化家庭的需要。4．2蓝牙模块rokl01007型蓝牙模块[5]是爱立信公司推出的适合于短距离通信的无线基带模块。它的集成度高、功耗小(射频功率为1mw)，支持所有的蓝牙协议，可嵌入任何需要蓝牙功能的设备中。该模块包括基带控制器、无线收发器、闪存、电源管理模块和时钟5个功能模块，可提供高至hci(主机控制接口)层的功能。单个蓝牙模块的结构如图5所示。4．3主，从设备硬件组成蓝牙技术支持点到点ppp(point-t0-point pro-tocol)和点对多点的通信，用无线方式将若干蓝牙设备连接成1个微微网[6]。每个微微网由1个主设备(master)和若干个从设备(slave)组成，从设备最多为7台。主设备负责通信协议的动作，mac地址用3位来表示，即在1个微微网内可寻址8个设备(互联的设备数量实际是没有限制的，只不过在同一时刻只能激活8个，其中1个为主，7个为从)。从设备受控于主设备。所有设备单元均采用同一跳频序列。将带有蓝牙模块的微型医疗传感器作为从设备，将智能机器人上的带有蓝牙模块的探测器作为主设备。主从设备的硬件主要包括天线单元、功率放大模块、蓝牙模块、嵌入式微处理器系统、接口电路及一些辅助电路。主设备是整个蓝牙的核心部分，要完成各种不同通信协议之间的转换和信息共享，以及同外部通信之间的数据交换功能，同时还负责对各个从设备的管理和控制。5 结束语随着社会的进步，经济的发展和人民生活水平的提高，越来越多的人需要家庭医疗保健服务。文中提出的应用于数字化家庭医疗保健服务的智能机器人系统的功能较为全面，且在家用智能机器人、基于蓝牙技术的智能家居和数字化医院等方面的拓展应用非常广阔，具有极大的市场潜力。

177 评论 10小时前发布

我的宝贝叫小啦

语音识别技术在智能家居方面有很大的应用，根据设计人的语音可以让人开家具，这对家里增加了一道保险。

335 评论 11小时前发布

腹黑芝士

语音识别技术在智能家居方面有很多的应用，像语音关灯，语音操控一切窗帘等等都是非常不错的

277 评论 11小时前发布

减肥大胃王

搜索LD3320语音识别芯片，已经有几个同学电子竞赛用他获奖了。论文也有发表

279 评论 11小时前发布

关于语音识别智能家居的毕业论文

6个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

6个回答默认排序

默认排序

按时间排序