语音识别智能家居论文

发布时间：2023-12-09 01:32

语音识别智能家居论文

智能家居控制系统的设计与实现 [2009-03-18 06:41] ;;; 摘要：介绍了以PC（个人计算</A>机）、MCU（单片机AT89C52）、双音多频编解码集成电路MT8880C、语音录放芯片ISD4004和无线数据收发芯片nRF401为核心，通过现有的电话网络</A>终端或者互联网网络终端实现远程控制的智能家居系统，给出了该系统的电路原理和办硬件设计与实现方法</A>。;;; 关键词：远程控制双音多频网络通讯无线通讯家庭自动化２１世纪是信息化的世纪，各种电信和互联网新技术推动了人类文明的巨大进步。数字化家居控制系统的出现使得人们可以通过手机或者互联网在任何时候、任意地点对家中的任意电器（空调、热水器、电饭煲、灯光、音响、ＤＶＤ录像机）进行远程控制；也可以在下班途中，预先将家中的空调打开、让热水器提前烧好热水、电饭煲煮好香喷喷的米饭……；而这一切的实现都仅仅是轻轻的点几下鼠标，或者打一个简单的电话。此外，该系统还可使家庭具有多途径报警、远程监听、数字留言等多种功能，如果不幸出现某种险情，您和１１０可以在第一时间获得通知以便进一步采取行动。舒适、时尚</A>的家居生活是</A>进步的标志，智能家居系统能够在不改变家中任何家电的情况下，对家里的电器、灯光、电源、家庭进行方便地控制，使人们尽享高科技</A>带来的简便而时尚的现代</A>生活。１系统的总体结构及工作过程智能家居系统由系统主机、系统分机、Ｉｎｔｅｒｎｅｔ服务器和网络接口等部分组成。其中系统主机通过服务器（个人）连入Ｉｎｔｅｒｎｅｔ，并通过自己的ＰＳＴＮ�公用电话交换网　接口电路连入ＰＳＴＮ。其结构图如图１所示。主机与分机通过无线传输组成星形拓扑结构。系统主机通过本地无线传输网络同系统分机进行通讯、传输控制命令和反馈信息。该系统正常工作时，用户可以通过-400)=-400;>Ｉｎｔｅｒｎｅｔ和ＰＳＴＮ两种网络进行访问，当通过Ｉｎｔｅｒｎｅｔ访问时，本系统可提供一个界面友好的终端软件，用户只需登陆到运行在家中的服务器即可对家中的设备进行远程控制；当通过ＰＳＴＮ访问时，本系统将为用户提供语音操作界面。其工作流程如图２所示。２系统的硬件构成本系统的硬件主要有系统主机与系统分机两大部分。系统主机由单片机ＡＴ８９Ｃ５２和各种接口电路组成，如图３所示。系统分机由单片机ＡＴ８９Ｃ５２和各种接口电路、传感器单元电路、固态继电器控制电路组成，并由固态继电器控制具体设备，具体硬件组成框图如图４所示。通过系统主机的各种接口电路可将主机ＣＰＵ从繁忙的计算中解脱出来，以便把主要精力运用在控制和信息传递上。系统主机主要依照各个功能电路的输出结果进行判断和控制命令的输出。系统分机的各种接口电路和主机相似，只是根据设备的不同（传感器单元）有着细节上的变化。下面主要介绍系统主机的各种接口电路。２．１ｎＲＦ４０１无线数据传输电路无线数据传输电路由Ｎｏｒｄｉｃ公司的单片ＵＨＦ无线数据收发芯片ｎＲＦ４０１及其外围电路构成。ｎＲＦ４０１采用ＦＳＫ调制解调技术，其工作效率可达２０ｋｂｉｔ／ｓ，且有两个频率通道供选择，并且支持低功耗和待机模式。它不用对数据进行曼彻斯特编码，其天线接口设计为差分天线，因而很容易用ＰＣＢ来实现。-400)=-400;>;;; ２．２看门狗电路看门狗电路由ＭＡＸ８１３Ｌ及其外围元件组成。通常，在单片机的工作现场，可能有各种干扰源。这些干扰源可能导致程序跑飞、造成死机或者程序不能正常运行。如果不及时恢复或使系统复位，就容易造成损失。看门狗电路的作用就是在程序跑飞或者死机时，能有效地使系统复位以使系统恢复正常运转。因此，在程序中定期给Ｐ１．５送入看门狗信号，就可以保证在程序运行异常时，由ＭＡＸ８１３Ｌ使单片机复位。２．３ＤＳ１３０７时钟接口电路ＤＳ１３０７时钟芯片是美国ＤＡＬＬＡＳ公司生产的Ｉ２Ｃ总线接口实时时钟芯片。ＤＳ１３０７可以独立于ＣＰＵ工作，它不受晶振和电容等的影响</A>，并且计时准确，月积累误差一般小于１０秒。此芯片还具有掉电时钟保护功能，可自动切换到后备电源供电。同时还具有闰年自动调整功能，可以产生秒、分、时、日、月、年等数据，并将其保存在具有掉电保护功能的时间寄存器内，以便ＣＰＵ根据需要对其进行读出或写入。由于单片机ＡＴ８９Ｃ５２没有Ｉ２Ｃ总线接口，因此，要驱动ＤＳ１３０７，就必须采用单主机方式下的Ｉ２Ｃ总线虚拟技术。在此方式下，以单片机为主节点（主器件），主器件永远占有总线而不出现总线竞争，且可以用两根Ｉ／Ｏ口线来虚拟Ｉ２Ｃ总线接口。Ｉ２Ｃ总线上的主器件（单片机）可在时钟线（ＳＤＬ）上产生时钟脉冲，在数据线（ＳＤＡ）上产生寻址信号、开始条件、停止条件以及建立数据传输的器件。任何被选中的器件都将被主器件看成是从器件。在这里，ＤＳ１３０７作为Ｉ２Ｃ总线的从器件。Ｉ２Ｃ总线为同步串行数据传输总线，其内部为双向传输电路，端口输出为开漏结构，因此，需加上拉电阻。２．４ＭＴ８８８０Ｃ双音频编解码电路由于单片机是通过ＭＴ８８８０Ｃ芯片得到ＰＳＴＮ网络的双音频信号解码输出，也就是说，单片机可以识别来自ＰＳＴＮ网络的控制信号，用户可以根据系统的语音提示进行按键选择以实现用户身份的识别与远程控制。因此，利用ＭＴ８８８０Ｃ的双音频编码功能，系统可以在紧急时刻将用户预置的紧急电话打到ＰＳＴＮ网络，从而把损失减少到最低。２．５ＩＳＤ４００４语音录放电路ＩＳＤ４００４是美国ＩＳＤ公司生产的一种语音录放芯片。它可录制８～１６分钟的语音信号。该芯片可提供ＳＰＩ标准接口和单片机进行接口，其语音的录放控制均通过单片机来实现。该芯片的一个最大特点是可以按地址编程录放，因而可由ＩＳＤ４００４和单片机编程控制来构系统与ＰＳＴＮ网络用户的语音平台。由于ＩＳＤ４００４的ＩＮＴ和ＲＡＣ脚输出为开漏结构，因此需要加上拉电阻。-400)=-400;>２．６ＭＡＸ２０２串行通讯电路通讯电路可由串行通讯专用芯片ＭＡＸ２０２组成，通过此电路可以方便地与ＰＣ机进行串行通讯。２．７铃流检测与摘挂机控制电路当系统被呼叫时，电话交换机发出铃流信号。振铃为２５±３Ｖ的正弦波，失真小于１０％，电压有效值为９０±１５Ｖ。振铃信号以５秒为周期，即１秒送，４秒断。由于振铃信号电压比较高，所以先要通过高压稳压二极管进行降压，然后输入至光耦。再经光耦隔离转换后，从光耦输出时通时断的正弦波，最后经ＲＣ回路进行滤波以输出标准的方波。该方波信号可以直接输出至单片机的定时器１进行计数，以实现对铃流的检测。由于程控电话交换机在电话摘机时电话线回路电流会突然变大（约３０ｍＡ），因此，交换机检测到回路电流变大就认为电话机已经摘机。自动摘挂机电路可以通过单片机的Ｐ１．７来控制一个固态继电器，固态继电器的控制端应连接一个大约３００Ω的电阻后再接入电话线两端，从而完成模拟摘挂机。

３系统软件编制本系统软件主要由系统主机和系统分机的Ｃ５１程序和系统与Ｉｎｔｅｒｎｅｔ网络</A>通讯程序组成。３．１系统主机程序的编制系统主机程序主要用于实现系统的总体功能。包括无线数据传输程序、看门狗程序、时间戳程序、双音频编解码程序、语音录放程序、串行通讯程序、铃流检测与摘挂机控制程序、系统初始化程序、意外事件处理程序等。程序编制以消息驱动为主导思想。消息由计数器中断１、外部中断０和串行中断产生，在中断服务程序中，应将相应的状态位置位，而在消息循环中则应按相应的状态位调用功能函数，然后由功能函数将相应的状态位清０并完成所需功能，并最后返回到消息循环中。其程序流程如图５所示。该系统的分机程序和主机类似，故此不再详述。-400)=-400;>３．２系统与Ｉｎｔｅｒｎｅｔ网络通讯程序的编制这部分通讯程序分为服务器和客户端两个程序，主要通过Ｉｎｔｅｒｎｅｔ网络完成用户的控制功能。服务器程序主要完成客户端与系统主机通讯的中转，即将客户端发来的控制或者查询命令成系统主机能识别的格式，或者将系统主机收到的报警等信息上传到客户端。服务器程序使用Ｓｏｃｋｅｔ与客户端进行Ｉｎｔｅｒｎｅｔ通讯。客户端程序是运行在远端用户的控制界面，主要用于完成家居内状态的显示以及对家居内电器的远程控制，同时使客户端直接连接到服务器。４结论本系统充分利用了现有的网络资源。通过在实际电话网络和Ｉｎｔｅｒｎｅｔ网络中的试运行证明：该系统能够达到设计初期的各项要求。相信将在信息家电、智能小区等方面得到广泛应用</A>。

求论文（语音识别）

　与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
　　语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
　　语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。任务分类和应用根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition)，关键词识别（或称关键词检出，keyword spotting)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。
　　根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。
　　另外，根据语音设备和通道，可以分为桌面（PC）语音识别、电话语音识别和嵌入式设备（手机、PDA等）语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。
　　语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。前端前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自相关法（德宾Durbin法）、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。
　　* 倒谱系数CEP：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱（LPCCEP），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。
　　* Mel倒谱系数MFCC和感知线性预测PLP：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。
　　MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型　语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。
　　HMM声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
　　语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模：协同发音，指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为Bi- Phone，考虑前一音和后一音的影响的称为Tri-Phone。
　　英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。
　　N-Gram：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
　　语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。搜索　　连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。
　　Viterbi：基于动态规划的Viterbi算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下，同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别，从而使这一算法成为语音识别搜索的基本策略。
　　由于语音识别对当前时间点之后的情况无法预测，基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性，同一时刻的各条路径对应于同样的观察序列，因而具有可比性，束Beam搜索在每一时刻只保留概率最大的前若干条路径，大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索：为在搜索中利用各种知识源，通常要进行多遍搜索，第一遍使用代价低的知识源，产生一个候选列表或词候选网格，在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典，这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解，往往要利用一些代价更高的知识源，如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析，进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。
　　N-best搜索产生一个候选列表，在每个节点要保留N条最好的路径，会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选，但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径，保留k条。词候选网格以一种更紧凑的方式给出多候选，对N-best搜索算法作相应改动后可以得到生成候选网格的算法。
　　前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后，搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中，因而可以使用启发式的A算法进行后向搜索，经济地搜索出N条候选。系统实现　　语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。
　　听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。
　　对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。自适应与强健性　　语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性，是要提高系统克服这些因素影响的能力，使系统在不同的应用环境、条件下性能稳定；自适应的目的，是根据不同的影响来源，自动地、有针对性地对系统进行调整，在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。
　　解决办法按针对语音特征的方法（以下称特征方法）和模型调整的方法（以下称模型方法）分为两类。前者需要寻找更好的、高鲁棒性的特征参数，或是在现有的特征参数基础上，加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关（SI）模型，从而使其成为说话人自适应（SA）模型。
　　说话人自适应的特征方法有说话人规一化和说话人子空间法，模型方法有贝叶斯方法、变换法和模型合并法。
　　语音系统中的噪声，包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征，模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波，模型方法有倒谱平移。微软语音识别引擎　　微软在office和vista中都应用了自己开发的语音识别引擎，微软语音识别引擎的使用是完全免费的，所以产生了许多基于微软语音识别引擎开发的语音识别应用软件，例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。语音识别系统的性能指标　　语音识别系统的性能指标主要有四项。①词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。②说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。③训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数的多少。④正确识别率：平均正确识别的百分数，它与前面三个指标有关。
　　小结
　　以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点，针对英语提出的技术在汉语中如何使用也是一个重要的研究课题，而四声等汉语本身特有的问题也有待解决。

寻求一篇有关机器人的论文（5000字左右）

数字化家庭是未来智能小区系统的基本单元。所谓“数字化家庭”就是基于家庭内部提供覆盖整个家庭的智能化服务，包括数据通信、家庭娱乐和信息家电控制功能。数字化家庭设计的一项主要内容是通信功能的实现，包括家庭与外界的通信及家庭内部相关设施之间的通信。从现在的发展来看，外部的通信主要通过宽带接入。intenet，而家庭内部的通信，笔者采用目前比较具有竞争力的蓝牙(bluetootlh)无线接入技术。传统的数字化家庭采用pc进行总体控制，缺乏人性化。笔者根据人工情感的思想设计一种配备多种外部传感器的智能机器人，将此智能机器人视作家庭成员，通过它实现对数字化家庭的控制。本文主要就智能机器人在数字化家庭医疗保健方面的应用进行模型设计，在智能机器人与医疗仪器和控制pc的通信采用蓝牙技术。整个系统的成本较低，功能较为全面，扩展应用非常广阔，具有极大的市场潜力。2 智能机器人的总体设计 2．1 智能机器人的多传感器系统机器人智能技术中最为重要的相关领域是机器人的多感觉系统和多传感信息的集成与融合[1]，统称为智能系统的硬件和软件部分。视觉、听觉、力觉、触觉等外部传感器和机器人各关节的内部传感器信息融合使用，可使机器人完成实时图像传输、语音识别、景物辨别、定位、自动避障、目标物探测等重要功能；给机器人加上相关的医疗模块(ccd、camera、立体麦克风、图像采集卡等)和专用医疗传感器部件，再加上医疗专家系统就可以实现医疗保健和远程医疗监护功能。智能机器人的多传感器系统框图如图1所示。 2．2 智能机器人控制系统机器人控制系统包含2部分：一是上位机，一般采用pc，它完成机器人的运动轨迹规划、传感器信息融合控制算法、视觉处理、人机接口及远程处理等任务；二是下位机，一般采用多单片机系统或dsp等作为控制器的核心部件，完成电机伺服控制、反馈处理、图像处理、语音识别和通信接口等功能。如果采用多单片机系统作为下位机，每个处理器完成单一任务，通过信息交换和相互协调完成总体系统功能，但其在信号处理能力上明显有所欠缺。由于dsp擅长对信号的处理，而且对此智能机器人来说经常需要信号处理、图像处理和语音识别，所以采用dsp作为智能机器人控制系统的控制器[2]。控制系统以dsp(tms320c54x)为核心部件，由蓝牙无线通信、gsm无线通信(支持gprs)、电机驱动、数字罗盘、感觉功能传感器(视觉和听觉等)、医疗传感器和多选一串口通信(rs-232)模块等组成，控制系统框图如图2所示。 (1)系统通过驱动电机和转向电机控制机器人的运动，转向电机利用数字罗盘的信息作为反馈量进行pid控制。 (2)采用爱立信(ericsson)公司的rokl01007型电路作为蓝牙无线通信模块，实现智能机器人与上位机pc的通信和与其他基于蓝牙模块的医疗保健仪器的通信。 (3)支持gprs的gsm无线通信模块支持数据、语音、短信息和传真服务，采用手机通信方式与远端医疗监控中心通信。 (4)由于tms320c54x只有1个串行口，而蓝牙模块、gsm无线模块、数字罗盘和视觉听觉等感觉功能传感器模块都是采用rs一232异步串行通信，所以必须设计1个多选一串口通信模块进行转换处理。当tms320c54x需要蓝牙无线通信模块的数据时通过电路选通；当t~ms320c54x需要某个传感器模块的数据时，关断上次无线通信模块的选通，同时选通该次传感器模块。这样，各个模块就完成了与1~ms320c54x的串口通信。3 主要医疗保健功能的实现智能机器人对于数字化家庭的医疗保健可以提供如下的服务： (1)医疗监护通过集成有蓝牙模块的医疗传感器对家庭成员的主要生理参数如心电、血压、体温、呼吸和血氧饱和度等进行实时检测，通过机器人的处理系统提供本地结果。 (2)远程诊断和会诊通过机器人的视觉和听觉等感觉功能，将采集的视频、音频等数据结合各项生理参数数据传给远程医疗中心，由医疗中心的专家进行远程监控，结合医疗专家系统对家庭成员的健康状况进行会诊，即提供望(视频)、闻、问(音频)、切(各项生理参数)的服务[3]。 3．1机器人视觉与视频信号的传输机器人采集的视频信号有2种作用：提供机器人视觉；将采集到的家庭成员的静态图像和动态画面传给远程医疗中心。机器人视觉的作用是从3维环境图像中获得所需的信息并构造出环境对象的明确而有意义的描述。视觉包括3个过程： (1)图像获取。通过视觉传感器(立体影像的ccd camera)将3维环境图像转换为电信号。 (2)图像处理。图像到图像的变换，如特征提取。 (3)图像理解。在处理的基础上给出环境描述。通过视频信号的传输，远程医疗中心的医生可以实时了解家庭成员的身体状况和精神状态。智能机器人根据医生的需要捕捉适合医疗保健和诊断需求的图像，有选择地传输高分辨率和低分辨率的图像。在医疗保健的过程中，对于图像传送有2种不同条件的需求： (1)医生观察家庭成员的皮肤、嘴唇、舌面、指甲和面部表情的颜色时，需要传送静态高清晰度彩色图像；采用的方法是间隔一段时间(例如5分钟)传送1幅高清晰度静态图像。 (2)医生借助动态画面查看家庭成员的身体移动能力时，可以传送分辨率较低和尺寸较小的图像，采用的方法是进行合理的压缩和恢复以保证实时性。 3．2机器人听觉与音频信号的传输机器人采集的音频信号也有2种作用：一是提供机器人听觉；二是借助于音频信号，家庭成员可以和医生进行沟通，医生可以了解家庭成员的健康状况和心态。音频信号的传输为医生对家庭成员进行医疗保健提供了语言交流的途径。机器人听觉是语音识别技术，医疗保健智能机器人带有各种声交互系统，能够按照家庭成员的命令进行医疗测试和监护，还可以按照家庭成员的命令做家务、控制数字化家电和照看病人等。声音的获取采用多个立体麦克风。由于声音的频率范围大约是300hz一3400hz，过高或过低频率的声音在一般情况下是不需要传输的，所以只用传送频率范围在1000hz-3000hz的声音，医生和家庭成员就可以进行正常的交流，从而可以降低传输音频信号所占用的带宽，再采用合适的通信音频压缩协议即可满足实时音频的要求。智能机器人的听觉系统如图3所示。3．3各项生理信息的采集与传输传统检测设备通过有线方式连到人体上进行生理信息的采集，各种连线容易使病人心情紧张，从而导致检测到的数据不准确。使用蓝牙技术可以很好地解决这个问题，带有蓝牙模块的医疗微型传感器安置在家庭成员身上，尽量使其不对人体正常活动产生干扰，再通过蓝牙技术将采集的数据传输到接收设备并对其进行处理。在智能机器人上安装1个带有蓝牙模块的探测器作为接收设备，各种医疗传感器将采集到的生理信息数据通过蓝牙模块传输到探测器，探测器有2种工作方式：一是将数据交给智能机器人处理，提供本地结果；二是与internet连接(也可以通过gsm无线模块直接发回)，通过将数据传输到远程医疗中心，达到医疗保健与远程监护的目的。视频和音频数据的传输也采用这种方式。智能机器人的数据传输系统如图4所示。 4 蓝牙模块的应用 4．1蓝牙技术概况蓝牙技术[4]是用于替代电缆或连线的短距离无线通信技术。它的载波选用全球公用的2．4ghz(实际射频通道为f=2402 k×1mhz，k=0，1，2，…，78)ism频带，并采用跳频方式来扩展频带，跳频速率为1600跳/s。可得到79个1mhz带宽的信道。蓝牙设备采用gfsk调制技术，通信速率为1mbit/s，实际有效速率最高可达721kbit/s，通信距离为10m，发射功率为1mw；当发射功率为100mw时，通信距离可达100m，可以满足数字化家庭的需要。 4．2蓝牙模块 rokl01007型蓝牙模块[5]是爱立信公司推出的适合于短距离通信的无线基带模块。它的集成度高、功耗小(射频功率为1mw)，支持所有的蓝牙协议，可嵌入任何需要蓝牙功能的设备中。该模块包括基带控制器、无线收发器、闪存、电源管理模块和时钟5个功能模块，可提供高至hci(主机控制接口)层的功能。单个蓝牙模块的结构如图5所示。 4．3主，从设备硬件组成蓝牙技术支持点到点ppp(point-t0-point pro-tocol)和点对多点的通信，用无线方式将若干蓝牙设备连接成1个微微网[6]。每个微微网由1个主设备(master)和若干个从设备(slave)组成，从设备最多为7台。主设备负责通信协议的动作，mac地址用3位来表示，即在1个微微网内可寻址8个设备(互联的设备数量实际是没有限制的，只不过在同一时刻只能激活8个，其中1个为主，7个为从)。从设备受控于主设备。所有设备单元均采用同一跳频序列。将带有蓝牙模块的微型医疗传感器作为从设备，将智能机器人上的带有蓝牙模块的探测器作为主设备。主从设备的硬件主要包括天线单元、功率放大模块、蓝牙模块、嵌入式微处理器系统、接口电路及一些辅助电路。主设备是整个蓝牙的核心部分，要完成各种不同通信协议之间的转换和信息共享，以及同外部通信之间的数据交换功能，同时还负责对各个从设备的管理和控制。 5 结束语随着社会的进步，经济的发展和人民生活水平的提高，越来越多的人需要家庭医疗保健服务。文中提出的应用于数字化家庭医疗保健服务的智能机器人系统的功能较为全面，且在家用智能机器人、基于蓝牙技术的智能家居和数字化医院等方面的拓展应用非常广阔，具有极大的市场潜力。更多论文请到文秘杂烩网

采纳哦

生活中的人工智能之智能音箱及智能家居

姓名：陈心语学号：21009102266 书院：海棠1号书院

转自：从智能音箱发展，看智能家居的未来()

【嵌牛导读】

智能音箱是语音识别、自然语言处理等人工智能技术的电子产品类应用与载体，随着智能音箱的迅猛发展，其也被视为智能家居的未来入口。究其本质，智能音箱就是能完成对话环节的拥有语音交互能力的机器。通过与它直接对话，家庭消费者能够完成自助点歌、控制家居设备和唤起生活服务等操作。

支撑智能音箱交互功能的前置基础主要包括将人声转换成文本的自动语音识别（Automatic Speech Recognition，ASR）技术，对文字进行词性、句法、语义等分析的自然语言处理（Natural Language Processing，NLP）技术，以及将文字转换成自然语音流的语音合成技术（Text To Speech，TTS）技术。

在人工智能技术的加持下，智能音箱也逐渐以更自然的语音交互方式创造出更多家庭场景下的应用。

【嵌牛鼻子】人工智能运用于智能音箱及智能家居。

【嵌牛提问】人工智能在智能音箱及智能家居中有什么运用呢？

【嵌牛正文】

今天与大家分享一篇关于智能家居发展的文章。

科技的发展,引领着时代的进步。自近代工业革命以来,人们的生活水平随着科技的发展而提升。而随着人工智能、大数据、5G通信等技术的出现,万物互联、智能家居等新生活方式也开始进入人类的世界。

由技术的组合进化而产生的智能设备,让万物互联、智能家居等生活方式逐渐成为现实。而在如今热谈的万物互联、智能家居领域,智能音箱或许可以说是覆盖率较高的智能硬件之一。据Strategy Analytics最新发布的报告显示,2020年,全球智能音箱和带屏音箱出货量已经达到了1．51亿台。而从智能音箱产品的发展过程,我们或许可以看清智能家居的未来。

中心化:“ 入口论” 炒热智能音箱

智能音箱最先兴起于2014年,亚马逊的Echo音箱首先将语音交互与音箱结合,让音箱实现了打电话、定闹钟、查天气等功能。语音交互的方式为用户带来新的体验,亚马逊也凭借最先入局的优势,一直占据智能音箱行业最大的市场份额。

我们可以发现,最开始的智能音箱,只是传统音箱的创新产物。Echo也是亚马逊在Kindle获得成功的基础上,再次进入硬件领域的试水作。在2014年Echo音箱大火之后,国内最先出现的跟随者,也是像亚马逊一样的电商平台。2015年,京东与科大讯飞合作推出叮咚智能音箱。

早期叮咚智能音箱由于先发优势,也在国内的智能音箱行业占据过市场第一的位置。据公开数据显示,2016年,叮咚智能音箱销量占国内的2/3,但是只有10万台。后来,随着小米、阿里、百度等竞争对手的出现,叮咚智能音箱彻底消失在历史的长河中。

同时,随着小米、阿里、百度等企业出现在智能音箱行业,智能音箱行业与智能家居之间的联系也更加紧密。

智能家居概念的出现,可以追溯到上世纪。1984年,美国建造了世界上第一栋将空调系统、电梯、防火防灾等各子系统计算机相连的智能建筑;1994年,比尔盖茨将灯光、暖通、家电等集成在电脑系统中,建造出智能化豪宅。在这一阶段,智能家居距离普通人很遥远,存在于概念当中,引人向往。

随着通信技术、自动化控制、大数据、人工智能等技术的发展,人们发现,智能家居已经可以在某些产品上实现,搭载蓝牙、传感器、WiFi、自动控制等技术的智能设备开始进入到人们的生活当中,智能家居进入了单品智能设备时代。

企业总喜欢押注未来,根据技术的发展,可以判断未来智能家居一定会出现,且其中一定蕴含着巨大的商业价值。此时,关于智能家居数据、流量“入口”的争抢成为了企业押注未来的关键。

在人们对智能家居的“入口”设想中,智能门锁、智能电视、路由器、智能音箱等产品都可能成为智能家居的入口。在这一“入口争夺战”中,智能音箱明显取得了上风。

一方面因为在美国,智能音箱的普及率极高,已经有了先例证明智能音箱的存在价值;另一方面,智能音箱相较于智能门锁、智能电视、路由器等产品而言,使用频率高,使用门槛低,更有利于培养用户的智能家居使用习惯。

为了给以后的智能家居生态做铺垫,以阿里、百度、小米为首的三家企业,在智能音箱领域疯狂补贴,通过价格优惠吸引人们购买。小米小爱音箱、小度智能屏、天猫精灵的很多产品售卖价和成本价相差不远,或是低于成本价售卖,为的就是用补贴换取流量。

“做硬件不挣钱”,似乎成了“互联网思维”驱使下的企业共识。而这一做法也取得了不错的成绩,据IDC公布的数据显示,自2018年起,中国智能音箱的市场竞争格局维持着三强争霸局面,2020年阿里、百度、小米在中国智能音箱市场份额超过95%。不愿意拿钱补贴的叮咚音箱,则彻底消失在智能音箱行业。

智能音箱的火热,离不开各企业对智能家居的控制入口、流量入口、数据入口争抢,而从智能家居的“入口争夺战”中,也可以看出彼时企业对未来智能家居入口中心化的判断。

去中心化: 场景为主的智能互联时代

智能音箱在智能家居入口争夺战中,通过补贴的方式虽然获取了用户,但做智能音箱并不赚钱。我们可以发现,如今占据国内智能音箱市场前三名的企业,都颇具互联网思维。从其他角度探索智能音箱的盈利方式,是这些企业的“拿手好戏”。

恰逢“场景大于流量”的说法甚嚣尘上,企业纷纷通过构建场景来增加某些产品的商业价值。智能音箱企业也逐渐开始构建场景,增加盈利渠道。以国外亚马逊的Echo智能音箱为例,Echo依托亚马逊电商业务,推出语音购物功能,成为亚马逊电商业务的有力增长点。

国内企业们也各展才能,小米智能音箱有米家生态链,小度智能屏有百度的搜索、信息流等优势支撑,天猫精灵则可以依赖阿里旗下生态,每家都在凭借优势寻找适合自己的盈利方式。

各家的智能音箱连接自家或是合作伙伴的智能家电,深入客厅、厨房、看护、教育等场景,探索如直播课、售卖智能家电等盈利方式。智能音箱还与做内容的APP合作,例如喜马拉雅一类的音频APP、QQ音乐一类的音乐APP、51talk一类的教育APP、爱奇艺一类的视频APP等,做会员一类的增值服务业务。

此外,阿里、百度智能音箱也曾探索过TO B业务,与酒店合作,打造智能酒店。最近,小度甚至推出了一款可旋转屏幕的智能屏产品,准备将手机高频使用的短视频、购物、K歌等场景搬到智能屏上。

在智能音箱产品都在构建场景寻找新的盈利渠道时,智能家居也从之前的单品智能设备时代,走向以场景为主的智能互联时代。

人们的生活方式不同,居家场景的不同,智能设备的结合方式也就不尽相同。智能家居内含客厅、厨房、阳台、卧室等场景,用户又有着热爱运动、热爱休闲等多种个性,能精准满足用户场景需求的智能家居解决方案逐渐受到人们的喜爱。

当智能家居进入以场景为主的时代时,传统家电厂商的身影开始频繁出现在智能家居领域。

智能家电在智能家居场景中,是不可或缺的一部分,无论多么智能的智能家居场景,家电还是要完成其本身的职能。所以海尔、美的、海信、格力等传统家电企业,自然也不愿放弃智能家居带来的机会。

有很多家电企业开始为用户提供场景化解决方案。以海尔智家为例,甚至专门推出场景品牌三翼鸟,搭建智家体验云平台,根据用户画像,为用户提供衣食住娱等方面的定制化解决方案。

随着场景为主的概念深入人心,人们发现,智能音箱的入口价值正在减弱。厨房场景下,拥有大屏+语音+WiFi等功能的智能冰箱完全可以胜任多数情况;客厅场景下,智能电视似乎成了中心。

智能家居进入以场景为主的智能互联时代,通过各个场景之间的协同共同构建出全屋智能,淡化了“中心”,或者可以说形成了多个“中心”,智能家居在这一时代主要特征是去中心化。

未来的智能家居: 中心化与去中心化并存

现在我们其实处于以场景为主的智能互联时代,智能家居的未来必将会在技术的组合进化中到来。而在分析智能家居的未来之前,首先要明确的是,智能音箱是智能家居的一部分,智能家居是物联网(IoT)的一部分。

智能音箱无论发展到什么阶段,其组成部分都是硬件+软件。智能家居、物联网同样是由硬件与软件组成,硬件中最重要的是芯片,软件中最重要的是操作系统。

操作系统是管理硬件与软件资源的程序,需要处理物与物之间的信息交互、控制输入设备与输出设备、利用人工智能技术对用户需求进行分析等,操作系统可以说是物联网时代的神经中枢。

智能音箱厂商不惜低于硬件成本价出售智能音箱的原因,除了押注未来、抢占入口之外,扩大智能音箱背后的物联网系统受众,收集数据让系统变得更加智能,也是原因之一。

三大智能音箱厂商背后,是阿里的Ali OS、小米基于小爱开放平台推出的Vela OS、百度的对话式AI操作系统Duer OS,而这些操作系统中的数据、使用者数量,是企业吸引其他智能设备合作伙伴的关键所在。

想要在智能家居中分一杯羹的企业,都想建立自己物联网系统,打造出自己的一套标准。除了以上三家之外,还有苹果的Siri OS、华为的鸿蒙OS、谷歌的Fuchsia等物联网系统,美的、格力、TCL等家电厂商也曾涉足物联网系统。

由于标准不同、控制方式不同,导致如今的智能家居行业过于分散,人们可控制的智能设备有限,就像小度智能屏控制不了米家家电。物联网系统的割裂,导致现在人们智能家居场景体验的割裂,智能家居停滞不前。

当下各个厂商因为商业利益导致智能家居难以向前发展,那么未来的智能家居究竟是如何的呢?

在笔者看来,未来的智能家居,智能设备可以借助技术,建立用户画像,以用户为中心,提供个性化、智慧化服务,进入主动智能阶段。智能家居对待用户的指令,应当像人类的反射弧(感应器——传入神经——神经中枢——传出神经——效应器)一样。

智能家居设备通过各种感应式传感器接收信号,通过网络、传感器传输信号,具有人工智能技术的操作系统在芯片内处理信息,再通过网络、传感器向各个智能设备传出信号,进而执行操作。

基于这一过程,我们可以发现,智能音箱一类的智能设备就像是人类的器官一样,承担感应器、效应器一类的工作,智能家居并不存在单一入口。在入口方面,智能家居是去中心化的。

刘慈欣科幻小说中《三体》曾描绘过这样的画面:执剑人罗辑在冰冻185年后于危机纪元醒来,地球科技基础物理方面因智子的封锁停滞不前,应用物理却突飞猛进,感应式显示屏、感应式可穿戴设备无处不在,机器服务网络也无处不在。

如今的智能音箱可以接受人们的语音信号,而随着柔性屏、传感器等技术的发展,感应式传感器在家中或许会无处不在,可以接收人们语音、手势信号,甚至可以是脑电波。

智能家居入口的去中心化,一定程度上保证了人们在智能家居场景体验上的去中心化。人们在家庭场景内,应该是无论处于任何位置,都可以体验到智能家居带来的便捷。就像美国漫威电影《钢铁侠》中的场景,钢铁侠的人工智能管家贾维斯,在家中无论在何处都可以被唤醒,家中各屏幕中的信息也可以根据手势操作。

不过,智能家居的控制中心还是要有的,便于人们对各个设备查看、控制。功能控制中心化,但控制中心的分布却是去中心化的。随着柔性屏等技术的发展,人们在家庭场景下的任何位置,都应该可以调出控制中心。

而承载操作系统的芯片,在笔者看来,应该是去中心化与中心化特征并存的。

物联网因为分成多个设备,每个设备中的芯片具备一定的信息处理能力,天生是去中心化的。华为近日发布的鸿蒙系统,就是分布式物联网操作系统,可以调用各个设备的芯片,来进行互联操作。

当下的物联网对芯片的算力要求较低,去年1．51亿智能音箱销量中,有五成是联发科旗下的芯片;三星也曾提出过利用旧手机的芯片和传感器,将旧手机变成物联网设备。

但是未来随着传感器、智能设备的增多,智能家居场景下产生的数据也相应的增加,智能家居推出单独的芯片来处理智能家居内的数据可能性会大些。

在芯片内的操作系统,一定是去中心化的。以手机系统为例,无论是开放的安卓,还是封闭的苹果,对于开发者来说,都是去中心化的。智能家居操作系统对于开发者、合作伙伴、智能设备来说,自然也是去中心化的。

另外,在物联网大环境下,现在的智能手机是智能家居场景与其他场景之间信息交互的控制入口,未来或许会出现更适应人们使用习惯的移动设备,替代智能手机。

未来的智能家居,是中心化与去中心化特征并存的。智能设备分布去中心化,用户的场景体验去中心化,功能控制中心化,控制入口分布去中心化,芯片集成去中心化与中心化并存,操作系统去中心化,智能家居与整个物联网环境的连接中心化。

结语:

智能音箱是智能家居的“排头兵”,从其发展过程可以看出智能家居在发展过程中的“中心化”和“去中心化”。

据天眼查APP数据显示,我国目前有13．3万家经营范围包含“智能通讯、智能家电、智能家居、智能家装”的企业,且状态为在业、存续、迁入、迁出的企业、有限责任公司占比高达87．39%。

智能家居中蕴含的商业利益让各个企业趋之若鹜,一定程度上造成了如今标准不一、体验很差的局面,但也一定程度上促进了我国智能家居行业的发展。

希望真正的智能家居,早日到来。

上一篇：智能家居论文课题背景

下一篇：人工智能智能家居论文

语音识别智能家居论文