语音智能控制家电研究报告论文

5个回答默认排序

默认排序

按时间排序

太极武者NO1

已采纳

2014年11月发布亚马逊低调发布智能音箱Echo，内测半年后于2015年正式发售，当年销量为250万台，16年销量520万台，超越传统音箱领头羊Sonos ，成为在线音箱行业霸主，一度在细分的智能音箱市场占据了99%的市场份额。亚马逊发布的智能音箱Echo 受到市场强烈反响以后，google在2017年5月发布google home，苹果在2017 年WWDC 发布智能音箱HomePod，国内厂商京东和科大讯飞合作推出叮咚音箱……一时间国际互联网和硬件行业巨头纷纷加入战局，争夺语音交互流量入口，带动了AI落地的一轮热潮。智能音箱已经成为全球增长最快的消费级硬件。2017年6月苹果home pod发布以来，下半年至今，每月都有一两家科技公司发布智能音箱新产品或二代、三代产品。目前为止国内科技巨头BAT、小米，老牌电器厂商联想、苏宁，语音技术企业科大讯飞、思必驰，硬件技术创业公司出门问问、若琪等都陆续通过自研或合作的方式入局。智能音箱的爆发离不开语音技术的支撑，掌握语音技术的有两类厂商。一是互联网巨头如Amzon、Google、BAT、苹果、微软等，二是专研语音交互技术的厂商如科大讯飞、思必驰等。语音技术厂商通过自主研发软硬件产品，或对外输出技术，赋能传统智能音箱厂商、内容和互联网服务厂商，获取用户和数据，建立平台生态。 Alexa 基本信息： Amzon Alexa是亚马逊的智能虚拟助理和开放平台，2010年启动研发，于2014年11月和Echo同时发布。Alexa 具备语音技术能力，并通过运行独立的程序，称为“技能”（Skills）来实现不同功能应用(类似手机里在操作系统上运行APP)，支持音乐播放、语音购物、智能家控、智能通讯等一系列功能。由于其先发优势与大量的落地产品，不论是从产品搭载数量和智能水平上，alexa都已远超其他技术厂商(CNET在CES2017的统计)。开放情况： Alexa 2015年6月，亚马逊将Alexa开放给第三方开发者，发布了 Alexa Skills Kit（ASK）和Alexa Voice Service （AVS）两套开发工具包，让开发者能够更加容易开发Alexa的“技能”；并设有了风险投资基金alexa found专门扶持语音交互领域的初创企业，以及大学生开发竞赛Alexa prize。从2014年发布时的29余项技能，到如今近4w项技能，积极开放政策和不断优化的开发工具，使得Alexa拥有了远超其他技术厂商的海量技能。应用范围：截止目前Amzon Alexa已陆续在全球38个国家开通（中国暂未开通），涵盖英语、德语、法语、意大利语、西班牙语和日语等6种语言（暂不支持中文）。除了搭载自家echo系列音箱产品外，Alexa也赋能sonos、联想、哈曼卡顿等音箱产品，amzon fire TV 等智能电视，amzon fire、华为mate9、HTC等平板电脑和智能手机，华硕、惠普、联想等笔记本电脑和PC，智能冰箱、智能灯、智能开关等智能家居产品，智能耳机、智能手表等可穿戴设备，以及包含福特、宝马、雷克萨斯、丰田等品牌的智能汽车。 Assistant 基础信息： Google assistant是谷歌的虚拟助理，于2016年5月在谷歌开发者大会正式发布，支持语音交互，搭载在Google的智能手机和智能音箱中。开放情况： 2016年12月，Google推出开发者平台Actions on Google，2017年4月发布了SDK（软件开发工具包）以便第三方开发者为Google assistant开发应用程序，并进一步扩展支持智能汽车和其他智能家居设备。Google assistant支持语音输入和视觉响应，可通过设备的相机识别物体并收集视觉信息。应用范围：当前Google assistant已支持英语、日语、法语、德语、西班牙语等8种语言，预计2018年底将支持30多种语言，覆盖95%的Android手机(暂不支持中文)。除了搭载自家Google home系列音箱和Pixel系列智能手机外，Google assistant还赋能索尼、诺基亚等智能手机，松下、LG、Sonos等品牌的智能电视、智能机顶盒、智能音箱产品，联想、爱可视等电脑及沃尔沃等智能汽车产品。 Cortana 基础信息： Cortana是微软的虚拟智能助理，于2015年1月正式发布，逐步应用于搭载windows操作系统和Android/ios系统的移动设备。Cortana具备语音交互功能，并使用bing的搜索引擎信息回答问题，能够调用应用程序、查询天气、提供餐厅和景点推荐，控制智能家居。开放情况： 2017年的build开发者会议上，微软退出Cortana技能开发平台，允许第三方开发者为cortana开发技能。应用范围：截止目前cortana支持包括中文(简/繁)、英语、德语、法语、日语在内的近10种语言。Cortana已集成到微软众多产品，如Edge浏览器、windows10、车机系统、Skype(微软的即时通讯服务)，并赋能微软与harman kardon合作的智能音箱invoke等。 siri 基础信息： Siri（Speech Interpretation and Recognition Interface）是苹果的虚拟助理。Siri 公司创建于2007年。起初 Siri 只是 iOS 平台的一个应用程序，苹果在 2010 年 4 月收购了 Siri 公司并重新开发后，Siri 成为了苹果设备的内置软件，于2011年重新发布，并只允许在 iOS、macOS 中运行。Siri支持语音交互，可以完成数据搜索、天气查询、设置闹钟等许多服务。开放情况： 2016年6月苹果开发者大会上开放了Siri接口，在IOS开发平台中新增Sirikit，支持开发者调用Siri展示应用内容。Siri目前暂无独立的技能开发平台。应用范围：截止目前Siri支持包括中文(简/繁)、英文、法文、德文、意大利文在内的20余种语言，并赋能苹果全线产品，如iPhone、iPad、iPod、Apple watch、mac等。 1. 科大讯飞基本信息：科大讯飞成立于1999年，是国内最大智能语音技术厂商，在智能语音技术领域有着长期的研究积累，并在中文语音合成、识别、评测等多项技术上拥有国际领先的成果，与中国官方关联密切，堪称“中文语音产业国家队”。科大讯飞占有中文语音技术市场70%以上市场份额，语音合成产品市场份额达到70%以上。开放情况：讯飞开放平台是全球首个提供移动互联网智能语音交互能力的讯飞开放平台，基于讯飞开放平台陆续推出讯飞输入法、灵犀语音助手、AI+教育、AI客服、AI医疗(语音电子病历、医学影像辅助诊断系统、智能助理等)、晓译翻译机、飞鱼智能车载系统、家庭场景的讯飞魔飞麦克风系统等是多宽人工智能产品。应用范围：科大讯飞支持34种语言，包括中文各地方言，目前已赋能长虹、海信、康佳等国内大牌智能电视、GlassX、ZWatch等可穿戴设备，奥迪、宝马、奔驰、通用、福特、上汽、广汽、长安、吉利、长城、奇瑞等国内外智能汽车，智能音箱（京东叮咚音箱）、聊天机器人（小鱼在家）等智能硬件产品，窗帘、空调等智能家居产品，为包括滴滴打车、高德地图、QQ阅读等在内的超过60000个App提供智能语音交互服务，覆盖聊天通讯、工具、视频、新闻、导航等生活领域的方方面面。 2.百度DuerOS · 小度基本信息： DuerOS是百度的对话式人工智能系统，于2017年7月百度AI开发者大会上正式发布。DuerOS具备影音娱乐、信息查询、生活服务、出行路况等10大类目共200多项能力，用户可在不同场景下实现指令控制、信息查询、知识应用、寻址导航、日常聊天、智能提醒和多种O2O生活服务；同时支持第三方开发者的能力接入。开放情况： DuerOS开放平台包括智能设备开放平台和技能开放平台，分别适应不同类型的硬件厂商和为开发者。为方便“上手”，百度发布了针对个人、产品厂商、特殊厂商的DuerOS套件，并融合包括声智科技、先声互联、Intel、Rockchip等第三方解决方案，上线了技能商店APP“小度之家”。应用范围： DuerOS支持普通话、英语、粤语、四川话等多种语言，已赋能智能音箱、电视、冰等大小家电与智能家居产品，智能手机、手表等随身设备，车机、智能后视镜等智能车载产品，累计搭载5 000万设备，日活超过1000万，有1600万DuerOS合作伙伴，落地80多家主控设备，积累了超过10000名DuerOS开发者，DuerOS累计回答问题数已达24亿。 3.小爱开放平台·小爱同学基本信息：小爱开放平台(原水滴平台)于2017年5月对外开放语音能力与SDK，基于小米的硬件生态和海量数据，提供全球领先的语音识别、NLP等多项人工智能技术，为开发者提供一站式的人工智能服务。应用范围：小爱开放平台能力已在小米电视、小米AI音箱、小米金服‘米小贝’等小米软、硬件产品中集成，为小米生态链中8500万台IoT连接设备赋能，虚拟助手小爱同学的日活跃用户也达1000万。语音开发者平台·天猫精灵基本信息： AliGenie开放平台于2017年10月12日云栖大会发布，由阿里巴巴人工智能实验室发起的，面向企业/机构/创业者/开发者，将阿里巴巴在人工智能领域积累的技术以API或SDK等形式对外共享的在线平台，目前已经拥有涵盖影音娱乐、新闻资讯、购物外卖、家居控制、生活助手、儿童教育等的100多项技能。应用范围: AliGenie开发者平台主要包括三大部分：精灵技能市场、硬件开放平台、行业解决方案，全面赋能智能家居、制造、零售、酒店、航空等服务场景 5.腾讯云·小微基本信息：腾讯云的智能服务系统和智能服务开放平台，帮助智能硬件厂商实现语音人机互动和音视频服务能力。微信AI团队自 2012 年起，就将语音输入、语音识别、语义分析技术等功能应用到微信中，腾讯云小微将微信的语音技术作为底层能力，故命名为“小微”，于2017年6月腾讯“云+未来”峰会上正式对外发布。应用范围: 腾讯云小微包括硬件开放平台、Skill开放平台、服务机器人(智能客服)平台，结合腾讯社交关系链，覆盖家庭、车载、运动、酒店和儿童陪伴教育等众多场景。 6.思必驰·DUI开放平台基本信息：思必驰2007年成立于英国剑桥，创始人均来自剑桥，2008年回国落户苏州，是国内少有的拥有人机对话技术，国际上极少数拥有自主产权、中英文综合语音技术的公司之一。思必驰于2017年9月正式发布DUI(Dialogue User Interface)开放平台，以任务式对话为核心，兼具闲聊与问答功能，打造人性化交互。作为一个全链路智能对话开放平台，DUI开放基于思必驰智能语音语言技术的对话功能，并提供GUI定制、版本管理、私有云部署等开发服务。 DUI具备青囊(服务与研发支撑)、天机（大数据）、紫微（丰富的第三方资源）、玲珑(终端解决方案与环境)四大系统。DUI平台对接丰富的第三方内容，内置国内最专业的语音语言技能商店，具备深度数据可视化、个性化自定义、零门槛操作，开发者通过DUI可实现全链路的高度定制，几乎可自定义每个模块。应用范围: 平台已覆盖车载、家居、机器人、故事机、手机助手等多应用场景，提供智能车载、智能家居、智能机器人等解决方案，赋能天猫精灵X1、小米AI音箱小爱同学、联想智能音箱、小米板牙70迈智能后视镜等前沿智能产品。 1.出门问问出门问问是Google(谷歌)投资的一家中国人工智能公司，由硅谷华人科学家李志飞于 2012 年回国创立。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS和机器人SLAM等核心技术。代表性的软硬件产品包括智能手表Ticwatch、车载智能后视镜问问魔镜Ticmirror、智能音箱Tichome、出门问问语音助手APP以及高级驾驶辅助系统问问魔眼Ticeye。 2. 猎户星空猎户星空拥有全套远场语音技术，自研全链路的远场语音交互系统“猎户语音OS”，已赋能喜马拉雅“小雅”音箱，美的、海尔、博联、海尔优家、欧瑞博等品牌的智能家居产品。小米AI音箱、小米电视，也应用猎户星空的TTS（语音合成）技术以及ASR（语音识别）技术。猎户星空自己音箱小豹AI音箱，接入微信支付、银联支付、融合区块链技术。 2017年猎户星空还获得了世界公认人脸识别“世界杯”的微软百万名人识别竞赛识别百万名人子命题有限制类（只使用竞赛提供数据）的第一名。2018年3月21日，猎户星空正式对外发布人工智能领域的机器人产品矩阵，在接待、售卖、儿童陪伴等多个场景落地。同时发布了猎户机器人平台 Orion OS ,集合了自研的多芯片系统，摄像机+视觉算法，麦克风阵列，猎户TTS，室内导航平台和七轴机械臂等，形成了完整的机器人技术链条。Orion OS现与微软、搜狗、高通、英伟达和锤子科技等建立了战略合作伙伴关系。 3. 若琪Rokid Rokid公司成立于2014年7月，隶属于杭州灵伴科技有限公司。总部位于中国杭州, 北京和旧金山分别设有研发中心，致力于机器人领域研究，专注于远程定向拾音/语音语义识别、人脸/手势识别、音响和投影系统等核心技术。Rokid现有PEBBLE • 月石智能音箱、AR眼镜Rokid Glass、智能机器人ALIEN·外星人等产品，Rokid智能家居机器人在2016年和2017年连续两年获得CES国际消费电子产品展创新大奖。 4. 聚熵智能·DeepBrain DeepBrain 2012年成立于上海，致力于研发人工智能产品，核心团队是来自于国内外名校的技术研究人才，为超过100家厂商提供深度人机对话能力，并与三星、华为、联想、中兴达成深度合作。DeepBrain在2014年发布了国内首款智能音箱——小智超级音箱，比 Echo 的推出还要早半年。其语义技能平台已进驻上千名开发者，开发了超过 1000 种以智能家居为主的语义技能。 5. 搜狗语音搜狗由搜狐公司创建于2004年8月3日，域名为，目的是增强搜狐网的搜索技能。2013年9月，腾讯注资搜狗，并将腾讯旗下的搜搜业务，输入法业务注入搜狗。2017年11月，搜狗在纽交所上市，腾讯目前持有搜狗的股权；搜狐持有搜狗股权比例为。搜狗语音技术研究于2012年启动，并在2013年6 月正式上线搜狗语音云开放平台，接入搜狗包括输入法、地图在内的全线产品，并推出搜狗语音助手，与Siri一样，搜狗语音助手在手机端上提供的交互体验并不能让用户产生足够的依赖性，产品的使用率并不高。2016年8月搜狗发布了语音交互引擎「知音」，2017年12月与四维图新、飞歌展开合作，推出飞歌智能车联网软硬件解决方案G8Ⅱ 后装智能车机，为2018年3月发布的小米电视 4A提供ASR语音识别能力，为会议平板厂商视源股份发布的首款智能语音平板 MAXHUB提供语音技术。销量与市场占有率对智能音箱产品有着非比寻常的意义。因为智能语音技术刚刚落地，极其依赖用户数据的喂养，越使用才能越智能。根据笔者估算，截止2018年Q1，全球智能音箱市场保有量占比如下所示。Amzon凭借其先发优势和形态丰富的产品，一骑绝尘，占领了71%的份额，Google以其完备的低-中-高产品矩阵和用户基础，抢夺12%的份额，天猫、小米分别凭借电商体系、智能家居生态与低价爆款策略占据6%、4%的份额，京东涉足智能音箱较早，品类丰富，也占据了3%的市场份额，apple的homepod在今年 2月9日才正式发售，且定价偏高，仍旧占据了1%，其他所有品牌占据3%。作为智能音箱品类开创者，Amzon不断地优化音箱产品新能，持续创新。从场景和形态出发，陆续推出小巧低价的echo dot，带屏音箱echo show、闹钟音箱echo spot。既有促销爆款铺量，又有高端品类防守，具备了高、中、低三个档位完善的产品矩阵，各型号累计销量在3千万以上，是目前唯一销量破千万的智能音箱厂商，引领着全球智能音箱市场。京东与科大讯飞联合成立的灵隆科技推出叮咚音箱，作为国内较早涉足智能音箱的厂商，从2015年5月开始，京东已经发售了一系列新品。整体产品线与Amzon相似，不断探索更多形态与场景，持续提供更多自定义功能，并以儿童教育音箱，切儿童早教市场。随着小米、阿里、百度的强势入局，京东也推出了高端带屏音箱叮咚PALY，低价叮咚mini2，抢夺国内市场。 2016年5月，在Amzon几乎垄断智能音箱市场之时，Google入场搅局，推出Google home，凭借其优雅的设计、背靠Google搜索引擎的智能问答和价格差异，曾一度占据了20%以上的市场份额，并在2017年10月推出低价的Google home mini和高价的Google home max，不断支持更多新技能和场景：接入更多智能家居设备、支持500w个菜谱抢占厨房，支持语音购物等。小米作为国内领先的智能家居生态构建者，产品覆盖了耳机、移动电源、手环、插座、血压计、空气净化器、净水器、运动相机、平衡车、电池、床头灯、电饭煲等智能家居设备。小米于2016年底开始研发虚拟助手小爱同学，并在2017年9月正式发布了智能音箱小爱同学，除了强大的小米家居生态背景，小爱同学还因其机智的人设获得极高关注。2018年小米推出Q萌版小爱同学mini加入国内低价冲量大战。阿里对新技术研发极为重视，在17年7月发布了天猫精灵x1，同时亮相的还有负责阿里消费级AI产品研发的阿里巴巴人工智能实验室，17年10月云栖大会正式宣布成立达摩院，网罗各个重点技术领域的专家人才，进行基础科学、AI芯片和颠覆式技术创新研究。18年3月推出天猫精灵M1曲奇，火眼支架，6月推出天猫精灵方糖，持续探索更多音箱形态，花式输出AI技术，包括图像识别、人脸识别、物体检测及情感反馈等能力。同时提高产品性价比，紧守音箱低价冲量的战场。依托阿里强大的电商网络，天猫精灵已成为国内销量最大的智能音箱品牌。 2017年2月百度全资收购渡鸦科技，11月发布了RavenH智能音箱，形状新奇色彩绚丽，带有可拆卸点阵触控板，对标高端音箱Sonos、Bose 和哈曼卡顿，售价1699。18年初联合老牌音响制造商DOSS（德仕）推出DOSS智能音箱，3月、6月陆续推出国内首款智能视频音箱599元的小度在家、89元低价小度智能音箱，在京东和天猫发售，凭借极高的性价比，在国内音箱价格战中尚有一席。除了销量可见的主流智能音箱，国内外仍有不少智能音箱产品。如微软与哈曼卡顿联合推出的invoke，搭载了微软Cortana，Line与高通合作推出的Clova，以及国内中小创业团队的系列智能音箱，出门问问的Tichome、喜马拉雅的小雅音箱等等。随着智能音箱市场的逐步成熟，各类音箱或者会找到自己的位置，或者无声寂灭。智能音箱除了提供核心内容资源消费功能，各品牌还深挖居家场景，开放平台，吸引第三方开发者，提供了越来越多的技能。智能音箱界独领风骚的Amzon Echo已经具备了超过3w项技能，从技能增长梯度看，2016年开始爆发式增长，随着Echo销量的增加，至今仍在不断攀升。超过3w项技能加持的Amzon比它的一众追随者更像一个语音操作系统。如同智能手机操作系统的app一样，海量的语音操作系统技能中，真正获得关注的还是少数，大量的技能成为僵尸技能，无人问津。因此其他智能音箱品牌，只要覆盖了高频、核心功能，提供更多资源、家控和创意功能，则无需畏惧Amzon恐怖的技能数量。智能音箱产品功能趋同，主要分为内容技能、工具技能、互动娱乐三个大方向；功能面向核心场景及针对核心人群的核心功能趋向性逐渐显现。用户关注度高的功能主要有音乐影视、生活助手、智能家居、游戏娱乐，其次是教育内容、趣玩搞笑、新闻，再其次是新闻、财经类功能；工具技能用户口碑偏低，但有不可替代性；互动娱乐技能可替代性强，口碑和体验好的功能更受欢迎；内容技能评价均匀，重点在优质资源可得性。摘录自ebay、Walmart、京东、天猫等电商平台的用户评论数据。用户体验总结： 1）智能音箱产品整体受欢迎程度很高、用户接受度较高，评价矩阵皆为70~80%的5星好评； 2）用户对音箱产品唤醒、识别、解析等语音基础性能感知差异不大（可能由于个人拥有音箱品牌数量少于1个，对比不明显）；对音质、内容资源丰富度、“聪明程度(智能感与趣味性)”等较为敏感。 3）老人、孩子对音箱的满意度、喜爱度是重要消费决策因素。 4）海外用户对音质要求更高，对音箱的使用场景区分更鲜明，倾向于为不同居所场景配备多个音箱产品，对是否自带电池等要求不多；国内用户音质要求和鉴别水平不足，期望自带电池便携便移动。 5）用户期望唤醒词自定义、内容资源更丰富、资源内容相互打通。 1 ）音箱销量： 2017年全球智能音箱出货量3200w台，其中Amzon与Google以大约9:1的比例瓜分市场。Amzon 音箱销量量级已超2000w，铺货量和活跃设备数全球遥遥领先。截止2018年4月底，国内厂商销量以天猫、小米为首，量级在200w左右，百度、腾讯及众创业公司量级均在10w之下。具备生态闭环和技术平台的大厂商均有“高性价比铺量”的趋向，以低价占据迅速用户市场。据Canalys分析公司保守预测，2018年全球音箱销量将增长到5630台，美国作为主战场销量将达3840台，中国作为第二大市场销量可达440万台。 2 ）功能覆盖：智能音箱产品功能同质化明显，主要分为内容技能、工具技能、互动娱乐三个大方向；具备生态闭环和技术平台的大厂商正在将以语音技术为核心的AI技术平台打造成Android/ios式的操作系统，吸引更多智能硬件厂商、独立开发者入驻；鉴于技术水平差距不明显和技能开发者的可转移性，技术、技能都不会是决胜的关键因素。 3 ）用户反馈：智能音箱产品整体市场接受度较高，评价矩阵皆为70~80%5星好评；用户对唤醒成功率、识别成功率、解析成功率等语音交互基础性能感知差异不大，对音箱的音质、内容资源丰富度、智能感与趣味性等维度较敏感；同时用户期望仍处于不断攀升的阶段，对音箱产品提出了越来越多个性化要求。

258 评论 1小时前发布

未央1895

智能家居控制系统的设计与实现 [2009-03-18 06:41] ;;; 摘要：介绍了以PC（个人计算机）、MCU（单片机AT89C52）、双音多频编解码集成电路MT8880C、语音录放芯片ISD4004和无线数据收发芯片nRF401为核心，通过现有的电话网络终端或者互联网网络终端实现远程控制的智能家居系统，给出了该系统的电路原理和办硬件设计与实现方法。;;; 关键词：远程控制双音多频网络通讯无线通讯家庭自动化２１世纪是信息化的世纪，各种电信和互联网新技术推动了人类文明的巨大进步。数字化家居控制系统的出现使得人们可以通过手机或者互联网在任何时候、任意地点对家中的任意电器（空调、热水器、电饭煲、灯光、音响、ＤＶＤ录像机）进行远程控制；也可以在下班途中，预先将家中的空调打开、让热水器提前烧好热水、电饭煲煮好香喷喷的米饭……；而这一切的实现都仅仅是轻轻的点几下鼠标，或者打一个简单的电话。此外，该系统还可使家庭具有多途径报警、远程监听、数字留言等多种功能，如果不幸出现某种险情，您和１１０可以在第一时间获得通知以便进一步采取行动。舒适、时尚的家居生活是进步的标志，智能家居系统能够在不改变家中任何家电的情况下，对家里的电器、灯光、电源、家庭进行方便地控制，使人们尽享高科技带来的简便而时尚的现代生活。１系统的总体结构及工作过程智能家居系统由系统主机、系统分机、Ｉｎｔｅｒｎｅｔ服务器和网络接口等部分组成。其中系统主机通过服务器（个人）连入Ｉｎｔｅｒｎｅｔ，并通过自己的ＰＳＴＮ�公用电话交换网接口电路连入ＰＳＴＮ。其结构图如图１所示。主机与分机通过无线传输组成星形拓扑结构。系统主机通过本地无线传输网络同系统分机进行通讯、传输控制命令和反馈信息。该系统正常工作时，用户可以通过);>Ｉｎｔｅｒｎｅｔ和ＰＳＴＮ两种网络进行访问，当通过Ｉｎｔｅｒｎｅｔ访问时，本系统可提供一个界面友好的终端软件，用户只需登陆到运行在家中的服务器即可对家中的设备进行远程控制；当通过ＰＳＴＮ访问时，本系统将为用户提供语音操作界面。其工作流程如图２所示。２系统的硬件构成本系统的硬件主要有系统主机与系统分机两大部分。系统主机由单片机ＡＴ８９Ｃ５２和各种接口电路组成，如图３所示。系统分机由单片机ＡＴ８９Ｃ５２和各种接口电路、传感器单元电路、固态继电器控制电路组成，并由固态继电器控制具体设备，具体硬件组成框图如图４所示。通过系统主机的各种接口电路可将主机ＣＰＵ从繁忙的计算中解脱出来，以便把主要精力运用在控制和信息传递上。系统主机主要依照各个功能电路的输出结果进行判断和控制命令的输出。系统分机的各种接口电路和主机相似，只是根据设备的不同（传感器单元）有着细节上的变化。下面主要介绍系统主机的各种接口电路。２．１ｎＲＦ４０１无线数据传输电路无线数据传输电路由Ｎｏｒｄｉｃ公司的单片ＵＨＦ无线数据收发芯片ｎＲＦ４０１及其外围电路构成。ｎＲＦ４０１采用ＦＳＫ调制解调技术，其工作效率可达２０ｋｂｉｔ／ｓ，且有两个频率通道供选择，并且支持低功耗和待机模式。它不用对数据进行曼彻斯特编码，其天线接口设计为差分天线，因而很容易用ＰＣＢ来实现。);>;;; ２．２看门狗电路看门狗电路由ＭＡＸ８１３Ｌ及其外围元件组成。通常，在单片机的工作现场，可能有各种干扰源。这些干扰源可能导致程序跑飞、造成死机或者程序不能正常运行。如果不及时恢复或使系统复位，就容易造成损失。看门狗电路的作用就是在程序跑飞或者死机时，能有效地使系统复位以使系统恢复正常运转。因此，在程序中定期给Ｐ１．５送入看门狗信号，就可以保证在程序运行异常时，由ＭＡＸ８１３Ｌ使单片机复位。２．３ＤＳ１３０７时钟接口电路ＤＳ１３０７时钟芯片是美国ＤＡＬＬＡＳ公司生产的Ｉ２Ｃ总线接口实时时钟芯片。ＤＳ１３０７可以独立于ＣＰＵ工作，它不受晶振和电容等的影响，并且计时准确，月积累误差一般小于１０秒。此芯片还具有掉电时钟保护功能，可自动切换到后备电源供电。同时还具有闰年自动调整功能，可以产生秒、分、时、日、月、年等数据，并将其保存在具有掉电保护功能的时间寄存器内，以便ＣＰＵ根据需要对其进行读出或写入。由于单片机ＡＴ８９Ｃ５２没有Ｉ２Ｃ总线接口，因此，要驱动ＤＳ１３０７，就必须采用单主机方式下的Ｉ２Ｃ总线虚拟技术。在此方式下，以单片机为主节点（主器件），主器件永远占有总线而不出现总线竞争，且可以用两根Ｉ／Ｏ口线来虚拟Ｉ２Ｃ总线接口。Ｉ２Ｃ总线上的主器件（单片机）可在时钟线（ＳＤＬ）上产生时钟脉冲，在数据线（ＳＤＡ）上产生寻址信号、开始条件、停止条件以及建立数据传输的器件。任何被选中的器件都将被主器件看成是从器件。在这里，ＤＳ１３０７作为Ｉ２Ｃ总线的从器件。Ｉ２Ｃ总线为同步串行数据传输总线，其内部为双向传输电路，端口输出为开漏结构，因此，需加上拉电阻。２．４ＭＴ８８８０Ｃ双音频编解码电路由于单片机是通过ＭＴ８８８０Ｃ芯片得到ＰＳＴＮ网络的双音频信号解码输出，也就是说，单片机可以识别来自ＰＳＴＮ网络的控制信号，用户可以根据系统的语音提示进行按键选择以实现用户身份的识别与远程控制。因此，利用ＭＴ８８８０Ｃ的双音频编码功能，系统可以在紧急时刻将用户预置的紧急电话打到ＰＳＴＮ网络，从而把损失减少到最低。２．５ＩＳＤ４００４语音录放电路ＩＳＤ４００４是美国ＩＳＤ公司生产的一种语音录放芯片。它可录制８～１６分钟的语音信号。该芯片可提供ＳＰＩ标准接口和单片机进行接口，其语音的录放控制均通过单片机来实现。该芯片的一个最大特点是可以按地址编程录放，因而可由ＩＳＤ４００４和单片机编程控制来构系统与ＰＳＴＮ网络用户的语音平台。由于ＩＳＤ４００４的ＩＮＴ和ＲＡＣ脚输出为开漏结构，因此需要加上拉电阻。);>２．６ＭＡＸ２０２串行通讯电路通讯电路可由串行通讯专用芯片ＭＡＸ２０２组成，通过此电路可以方便地与ＰＣ机进行串行通讯。２．７铃流检测与摘挂机控制电路当系统被呼叫时，电话交换机发出铃流信号。振铃为２５±３Ｖ的正弦波，失真小于１０％，电压有效值为９０±１５Ｖ。振铃信号以５秒为周期，即１秒送，４秒断。由于振铃信号电压比较高，所以先要通过高压稳压二极管进行降压，然后输入至光耦。再经光耦隔离转换后，从光耦输出时通时断的正弦波，最后经ＲＣ回路进行滤波以输出标准的方波。该方波信号可以直接输出至单片机的定时器１进行计数，以实现对铃流的检测。由于程控电话交换机在电话摘机时电话线回路电流会突然变大（约３０ｍＡ），因此，交换机检测到回路电流变大就认为电话机已经摘机。自动摘挂机电路可以通过单片机的Ｐ１．７来控制一个固态继电器，固态继电器的控制端应连接一个大约３００Ω的电阻后再接入电话线两端，从而完成模拟摘挂机。３系统软件编制本系统软件主要由系统主机和系统分机的Ｃ５１程序和系统与Ｉｎｔｅｒｎｅｔ网络通讯程序组成。３．１系统主机程序的编制系统主机程序主要用于实现系统的总体功能。包括无线数据传输程序、看门狗程序、时间戳程序、双音频编解码程序、语音录放程序、串行通讯程序、铃流检测与摘挂机控制程序、系统初始化程序、意外事件处理程序等。程序编制以消息驱动为主导思想。消息由计数器中断１、外部中断０和串行中断产生，在中断服务程序中，应将相应的状态位置位，而在消息循环中则应按相应的状态位调用功能函数，然后由功能函数将相应的状态位清０并完成所需功能，并最后返回到消息循环中。其程序流程如图５所示。该系统的分机程序和主机类似，故此不再详述。);>３．２系统与Ｉｎｔｅｒｎｅｔ网络通讯程序的编制这部分通讯程序分为服务器和客户端两个程序，主要通过Ｉｎｔｅｒｎｅｔ网络完成用户的控制功能。服务器程序主要完成客户端与系统主机通讯的中转，即将客户端发来的控制或者查询命令成系统主机能识别的格式，或者将系统主机收到的报警等信息上传到客户端。服务器程序使用Ｓｏｃｋｅｔ与客户端进行Ｉｎｔｅｒｎｅｔ通讯。客户端程序是运行在远端用户的控制界面，主要用于完成家居内状态的显示以及对家居内电器的远程控制，同时使客户端直接连接到服务器。４结论本系统充分利用了现有的网络资源。通过在实际电话网络和Ｉｎｔｅｒｎｅｔ网络中的试运行证明：该系统能够达到设计初期的各项要求。相信将在信息家电、智能小区等方面得到广泛应用。

254 评论 9小时前发布

龙井12345

语音识别技术在智能家居方面有很大的应用，根据设计人的语音可以让人开家具，这对家里增加了一道保险。

297 评论 11小时前发布

凡人帽子11

识别技术在智能方面当然应用还非常广泛的，它可以使用一些语音。

212 评论 11小时前发布

清晨一叶浮舟

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。任务分类和应用根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition)，关键词识别（或称关键词检出，keyword spotting)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。另外，根据语音设备和通道，可以分为桌面（PC）语音识别、电话语音识别和嵌入式设备（手机、PDA等）语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。前端前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自相关法（德宾Durbin法）、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。* 倒谱系数CEP：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱（LPCCEP），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。* Mel倒谱系数MFCC和感知线性预测PLP：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模：协同发音，指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为Bi- Phone，考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。N-Gram：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。搜索连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。Viterbi：基于动态规划的Viterbi算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下，同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别，从而使这一算法成为语音识别搜索的基本策略。由于语音识别对当前时间点之后的情况无法预测，基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性，同一时刻的各条路径对应于同样的观察序列，因而具有可比性，束Beam搜索在每一时刻只保留概率最大的前若干条路径，大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索：为在搜索中利用各种知识源，通常要进行多遍搜索，第一遍使用代价低的知识源，产生一个候选列表或词候选网格，在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典，这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解，往往要利用一些代价更高的知识源，如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析，进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。N-best搜索产生一个候选列表，在每个节点要保留N条最好的路径，会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选，但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径，保留k条。词候选网格以一种更紧凑的方式给出多候选，对N-best搜索算法作相应改动后可以得到生成候选网格的算法。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后，搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中，因而可以使用启发式的A算法进行后向搜索，经济地搜索出N条候选。系统实现语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。自适应与强健性语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性，是要提高系统克服这些因素影响的能力，使系统在不同的应用环境、条件下性能稳定；自适应的目的，是根据不同的影响来源，自动地、有针对性地对系统进行调整，在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法（以下称特征方法）和模型调整的方法（以下称模型方法）分为两类。前者需要寻找更好的、高鲁棒性的特征参数，或是在现有的特征参数基础上，加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关（SI）模型，从而使其成为说话人自适应（SA）模型。说话人自适应的特征方法有说话人规一化和说话人子空间法，模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声，包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征，模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波，模型方法有倒谱平移。微软语音识别引擎微软在office和vista中都应用了自己开发的语音识别引擎，微软语音识别引擎的使用是完全免费的，所以产生了许多基于微软语音识别引擎开发的语音识别应用软件，例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。语音识别系统的性能指标语音识别系统的性能指标主要有四项。①词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。②说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。③训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数的多少。④正确识别率：平均正确识别的百分数，它与前面三个指标有关。小结以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点，针对英语提出的技术在汉语中如何使用也是一个重要的研究课题，而四声等汉语本身特有的问题也有待解决。

270 评论 12小时前发布

语音智能控制家电研究报告论文

5个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

5个回答默认排序

默认排序

按时间排序