声学技术论文

发布时间：2023-12-09 14:31:38

声学技术论文

一般来说，文章要求写的有深度，不要有宽度，毕竟人的精力是有限的，只有将有限的精力放在一个点上，然后深度挖掘，才能写出漂亮的文章，具体怎么写的有深度当然是要你在自己这个领域自己去发现哪些有趣的现象，然后去探索研究，最后写成文章，肯定就可以，千万别一口一个要改变世界，改变整个科学领域的来写，只能帮你到这了，加油吧，文章写好了可以我我交流。

音频定义，指人说话的声音频率，通常指300Hz-3400Hz的频带。2.指存储声音内容的文件。3.在某些方面能指作为波滤的振动。音频这个专业术语，人类能够听到的所有声音都称之为音频，它可能包括噪音、声音被录制下来以后，无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD，这时候所有的声音没有改变，因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。演讲和音乐，如果有计算机加上相应的音频卡 -- 就是我们经常说的声卡，我们可以把所有的声音录制下来，声音的声学特性，音的高低都可以用计算机硬盘文件的方式储存下来。反过来，我们也可以把储存下来的音频文件通过一定的音频程序播放，还原以前录下的声音。解读音频属性大家都承认现在是一个数码时代，为了追求优良的音质很多人不懈地努力。随着数码时代的来临，谁都承认数码音频比模拟信号优越。什么是模拟信号？其实任何我们可以听见的声音经过音频线或话筒的传输都是一系列的模拟信号。模拟信号是我们可以听见的。而数字信号就是用一堆数字记号来记录声音，而不是用物理手段来保存信号。（用普通磁带录音就是一种物理方式）数字信号我们实际上是听不到的。这样我们可以简略地比较一下模拟时代的录音制作与数码时代的区别：模拟时代是把原始信号以物理方式录制到磁带上（当然在录音棚里完成了），然后加工，剪接，修改，最后录制到磁带，LP等广大听众可以欣赏的载体上。这一系列过程全是模拟的，每一步都要损失一些信号，到了听众手里自然是差了好远，更不用说什么HI-FI了。数码时代是第一步就把原始信号录成数码音频资料，然后用硬件或软件进行加工处理，这个过程相比模拟方法有无比的优越性，因为它几乎不会有任何损耗。对于机器来说只是处理一下数字而已，当然丢码的可能性也有，但只要操作合理就不会发生。最后把这堆数字信号传输给数字记录设备如CD等，损耗自然小很多了！如果我们注意一下身边的CD片就会看到很多CD都有如：ADD，AAD，DDD等标记。三个字母各代表该片在录音，编辑，成品三个过程中所使用的方法是模拟(Analog)的还是数字(Digital)的。当然A代表模拟，D代表数字。AAD就说明其录音和编辑是用模拟方式的，而最后灌片是用数字方式的，这类唱片多是将过去录制的音乐转成CD片而不做任何修改。ADD则是有一个修改过程，许多古典音乐大师的演奏或指挥多录制于模拟时代，我们现在听到的CD是经过修改后罐录的，很多这类唱片都有标记ADD。而DDD的唱片必然是较现代的录音品。自然，CD片必然以D结尾，而磁带可以姑且认为是AAA，虽然好像并没有这种说法。所以说，数码音频是我们保存声音信号，传输声音信号的一种方式，它的特点是信号不容易损失。而模拟信号是我们最后可以听到的东西。不过模拟信号的修改简直是一场灾难，损失太大了。有此僻好的格伦•古尔德若活到现在也会瞠目结舌的。而数码音频复制100遍也不会有损耗，不信大家COPY一个WAVE文件试试？数码录音最关键一步就是要把模拟信号转换为数码信号。就电脑而言是把模拟声音信号录制成为Wave文件，这个工作Windows自带的录音机也可以做到，但是它的功能十分有限，不能满足我们的需求，所以我们用其他专业音频软件代替，如Sound Forge等。录制出来的文件就是Wave文件，描述Wave文件主要有两个指标，一个是采样精度，另一个是比特率。这是数字音频制作中十分重要的两个概念，下面就来看一下吧。什么是采样精度？因为Wave是数码信号，它是用一堆数字来描述原来的模拟信号，所以它要对原来的模拟信号进行分析，我们知道所有的声音都有其波形，数码信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”，赋予每一个点以一个数值，这就是“采样”，然后把所有的“点”连起来就可以描述模拟信号了，很明显，在一定时间内取的点越多，描述出来的波形就越精确，这个尺度我们就称为“采样精度”。我们最常用的采样精度是。它的意思是每秒取样44100次，之所以使用这个数值是因为经过了反复实验，人们发现这个采样精度最合适，低于这个值就会有较明显的损失，而高于这个值人的耳朵已经很难分辨，而且增大了数字音频所占用的空间。一般为了达到“万分精确”，我们还会使用48k甚至96k的采样精度，实际上，96k采样精度和采样精度的区别绝对不会象和22k那样区别如此之大，我们所使用的CD的采样标准就是，目前还是一个最通行的标准，有些人认为96k将是未来录音界的趋势。采样精度提高应该是一件好事，可有时我也想，我们真的能听出96k采样精度制作的音乐与采样精度制作的音乐的区别吗？普通老百姓家里的音响能放出他们的区别吗？比特率是大家常听说的一个名词，数码录音一般使用16比特，20比特，24比特制作音乐，什么是“比特”？我们知道声音有轻有响，影响轻响的物理要素是振幅，作为数码录音，必须也要能精确表示乐曲的轻响，所以一定要对波形的振幅有一个精确的描述，“比特”就是这样一个单位，16比特就是指把波形的振幅划为216即65536个等级，根据模拟信号的轻响把它划分到某个等级中去，就可以用数字来表示了。和采样精度一样，比特率越高，越能细致地反映乐曲的轻响变化。20比特就可以产生1048576个等级，表现交响乐这类动态十分大的音乐已经没有什么问题了。刚才提到了一个名词“动态”，它其实指的是一首乐曲最响和最轻的对比能达到多少，我们也常说“动态范围”，单位是dB，而动态范围和我们录音时采用的比特率是紧密结合在一起的，如果我们使用了一个很低的比特率，那么我们就只有很少的等级可以用来描述音响的强弱，我们当然就不能听到大幅度的强弱对比了。动态范围和比特率的关系是；比特率每增加1比特，动态范围就增加6dB。所以假如我们使用1比特录音，那么我们的动态范围就只有6dB，这样的音乐是不可能听的。16比特时，动态范围是96dB。这可以满足一般的需求了。20比特时，动态范围是120dB，对比再强烈的交响乐都可以应付自如了，表现音乐的强弱是绰绰有余了。发烧级的录音师还使用24比特，但是和采样精度一样，它不会比20比特有很明显的变化，理论上24比特可以做到144 dB的动态范围，但实际上是很难达到的，因为任何设备都不可避免会产生噪音，至少在现阶段24比特很难达到其预期效果。音频格式以下是常见音频文件格式的特点。要在计算机内播放或是处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声音，最低的频率是从20Hz起一直到最高频率20KHZ，20KHz以上人耳是听不到的，因此音频的最大带宽是20KHZ，故而采样速率需要介于40~50KHZ之间，而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位-96dB的信噪比，采用线性脉冲编码调制PCM，每一量化步长都具有相等的长度。在音频文件的制作中，正是采用这一标准。CD格式：天簌当今世界上音质最好的音频格式是什么？当然是CD了。因此要讲音频格式，CD自然是打头阵的先锋。在大多数播放软件的“打开文件类型”中，都可以看到＊.cda格式，这就是CD音轨了。标准CD格式也就是的采样频率，速率88K/秒，16位量化位数，因为CD音轨可以说是近似无损的，因此它的声音基本上是忠于原声的，因此如果你如果是一个音响发烧友的话，CD是你的首选。它会让你感受到天籁之音。CD光盘可以在CD唱机中播放，也能用电脑里的各种播放软件来重放。一个CD音频文件是一个＊.cda文件，这只是一个索引信息，并不是真正的包含声音信息，所以不论CD音乐的长短，在电脑上看到的“＊.cda文件”都是44字节长。注意：不能直接的复制CD格式的＊.cda文件到硬盘上播放，需要使用象EAC这样的抓音轨软件把CD格式的文件转换成WAV，这个转换过程如果光盘驱动器质量过关而且EAC的参数设置得当的话，可以说是基本上无损抓音频。推荐大家使用这种方法。WAV：无损是微软公司开发的一种声音文件格式，它符合 PIFFResource Interchange File Format 文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是的采样频率，速率88K/秒，16位量化位数，看到了吧，WAV格式的声音文件质量和CD相差无几，也是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。这里顺便提一下由苹果公司开发的AIFF（Audio Interchange File Format）格式和为UNIX系统开发的AU格式，它们都和和WAV非常相像，在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。MP3：流行MP3格式诞生于八十年代的德国，所谓的MP3也就是指的是MPEG标准中的音频部分，也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层，分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。需要提醒大家注意的地方是：MPEG音频文件的压缩是一种有损压缩，MPEG3音频编码具有10：1~12：1的高压缩率，同时基本保持低音频部分不失真，但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸，相同长度的音乐文件，用＊.mp3格式来储存，一般只有＊.wav文件的1/10，而音质要次于CD格式或WAV格式的声音文件。由于其文件尺寸小，音质好；所以在它问世之初还没有什么别的音频格式可以与之匹敌，因而为＊.mp3格式的发展提供了良好的条件。直到现在，这种格式还是风靡一时，作为主流音频格式的地位难以被撼动。但是树大招风，MP3音乐的版权问题也一直是找不到办法解决，因为MP3没有版权保护技术，说白了也就是谁都可以用。MP3格式压缩音乐的采样频率有很多种，可以用64Kbps或更低的采样频率节省空间，也可以用320Kbps的标准达到极高的音质。我们用装有Fraunhofer IIS Mpeg Lyaer3的 MP3编码器（现在效果最好的编码器）MusicMatch Jukebox 在128Kbps的频率下编码一首3分钟的歌曲，得到的MP3文件。采用缺省的CBR（固定采样频率）技术可以以固定的频率采样一首歌曲，而VBR（可变采样频率）则可以在音乐“忙”的时候加大采样的频率获取更高的音质，不过产生的MP3文件可能在某些播放器上无法播放。我们把VBR的级别设定成为与前面的CBR文件的音质基本一样，生成的VBR MP3文件为。MIDI：作曲家最爱经常玩音乐的人应该常听到MIDI（Musical Instrument Digital Interface）这个词，MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音，而是记录声音的信息，然后在告诉声卡如何再现音乐的一组指令。这样一个MIDI文件每存1分钟的音乐只用大约5～10KB。今天，MID文件主要用于原始乐器作品，流行歌曲的业余表演，游戏音轨以及电子贺卡等。＊.mid文件重放的效果完全依赖声卡的档次。＊.mid格式的最大用处是在电脑作曲领域。＊.mid文件可以用作曲软件写出，也可以通过声卡的MIDI口把外接音序器演奏的乐曲输入电脑里，制成＊.mid文件。WMA：最具实力WMA (Windows Media Audio) 格式是来自于微软的重量级选手，后台强硬，音质要强于MP3格式，更远胜于RA格式，它和日本YAMAHA公司开发的VQF格式一样，是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的，WMA的压缩率一般都可以达到1：18左右，WMA的另一个优点是内容提供商可以通过DRM（Digital Rights Management）方案如Windows Media Rights Manager 7加入防拷贝保护。这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等，这对被盗版搅得焦头乱额的音乐公司来说可是一个福音，另外WMA还支持音频流(Stream)技术，适合在网络上在线播放，作为微软抢占网络音乐的开路先锋可以说是技术领先、风头强劲，更方便的是不用象MP3那样需要安装额外的播放器，而Windows操作系统和Windows Media Player的无缝捆绑让你只要安装了windows操作系统就可以直接播放WMA音乐，新版本的Windows Media 更是增加了直接把CD光盘转换为WMA声音格式的功能，在新出品的操作系统Windows XP中，WMA是默认的编码格式，大家知道Netscape的遭遇，现在“狼”又来了。WMA这种格式在录制时可以对音质进行调节。同一格式，音质好的可与CD媲美，压缩率较高的可用于网络广播。虽然现在网络上还不是很流行，但是在微软的大规模推广下已经是得到了越来越多站点的承认和大力支持，在网络音乐领域中直逼＊.mp3，在网络广播方面，也正在瓜分Real打下的天下。因此，几乎所有的音频格式都感受到了WMA格式的压力。RealAudio：流动旋律RealAudio主要适用于在网络上的在线音乐欣赏，现在大多数的用户仍然在使用56Kbps或更低速率的Modem，所以典型的回放并非最好的音质。有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。现在real的的文件格式主要有这么几种：有RA（RealAudio）、RM（RealMedia，RealAudio G2）、RMX（RealAudio Secured），还有更多。这些格式的特点是可以随网络带宽的不同而改变声音的质量，在保证大多数人听到流畅声音的前提下，令带宽较富裕的听众获得较好的音质。近来随着网络带宽的普遍改善，Real公司正推出用于网络广播的、达到CD音质的格式。如果你的RealPlayer软件不能处理这种格式，它就会提醒你下载一个免费的升级包。许多音乐网站如提供了歌曲的Real格式的试听版本。现在最新的版本是RealPlayer 。VQF：无人问津雅马哈公司另一种格式是＊.vqf，它的核心是减少数据流量但保持音质的方法来达到更高的压缩比，可以说技术上也是很先进的，但是由于宣传不力，这种格式难有用武之地。＊.vqf可以用雅马哈的播放器播放。同时雅马哈也提供从＊.wav文件转换到＊.vqf文件的软件。此文件缺少特点外加缺乏宣传，现在几乎已经宣布死刑了。OGG：新生代音频格式ogg格式完全开源，完全免费，和mp3不相上下的新格式。前途无量时下的MP3支持格式最常见的是MP3和WMA。MP3由于是有损压缩，因此讲求采样率，一般是。另外，还有比特率，即数据流，一般为8---320KBPS。在MP3编码时，还看看它是否支持可变比特率（VBR），现在出的MP3机大部分都支持，这样可以减小有效文件的体积。WMA则是微软力推的一种音频格式，相对来说要比MP3体积更小。音频处理一、音频媒体的数字化处理随着计算机技术的发展，特别是海量存储设备和大容量内存在PC机上的实现，对音频媒体进行数字化处理便成为可能。数字化处理的核心是对音频信息的采样，通过对采集到的样本进行加工，达成各种效果，这是音频媒体数字化处理的基本含义。二、音频媒体的基本处理基本的音频数字化处理包括以下几种：不同采样率、频率、通道数之间的变换和转换。其中变换只是简单地将其视为另一种格式，而转换通过重采样来进行，其中还可以根据需要采用插值算法以补偿失真。针对音频数据本身进行的各种变换，如淡入、淡出、音量调节等。通过数字滤波算法进行的变换，如高通、低通滤波器。三、音频媒体的三维化处理长期以来，计算机的研究者们一直低估了声音对人类在信息处理中的作用。当虚拟技术不断发展之时，人们就不再满足单调平面的声音，而更催向于具有空间感的三维声音效果。听觉通道可以与视觉通道同时工作，所以声音的三维化处理不仅可以表达出声音的空间信息，而且与视觉信息的多通道的结合可以创造出极为逼真的虚拟空间，这在未来的多媒体系统中是极为重要的。这也是在媒体处理方面的重要措施。人类感知声源的位置的最基本的理论是双工理论，这种理论基于两种因素：两耳间声音的到达时间差和两耳间声音的强度差。时间差是由于距离的原因造成，当声音从正面传来，距离相等，所以没有时间差，但若偏右三度则到达右耳的时间就要比左耳约少三十微秒，而正是这三十微秒，使得我们辨别出了声源的位置。强度差是由于信号的衰减造成，信号的衰减是因为距离而自然产生的，或是因为人的头部遮挡，使声音衰减，产生了强度的差别，使得靠近声源一侧的耳朵听到的声音强度要大于另一耳。基于双工理论，同样地，只要把一个普通的双声道音频在两个声道之间进行相互混合，便可以使普通双声道声音听起来具有三维音场的效果。这涉及到以下有关音场的两个概念：音场的宽度和深度。音场的宽度利用时间差的原理完成，由于现在是对普通立体声音频进行扩展，所以音源的位置始终在音场的中间不变，这样就简化了我们的工作。要处理的就只有把两个声道的声音进行适当的延时和强度减弱后相互混合。由于这样的扩展是有局限性的，即延时不能太长，否则就会变为回音。音场的深度利用强度差的原理完成，具体的表现形式是回声．音场越深，则回音的延时就越长．所以在回音的设置中应至少提供三个参数：回音的衰减率、回音的深度和回音之间的延时。同时，还应该提供用于设置另一通道混进来的声音深度的多少的选项。

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。任务分类和应用根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition)，关键词识别（或称关键词检出，keyword spotting)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。另外，根据语音设备和通道，可以分为桌面（PC）语音识别、电话语音识别和嵌入式设备（手机、PDA等）语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。前端前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自相关法（德宾Durbin法）、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。* 倒谱系数CEP：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱（LPCCEP），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。* Mel倒谱系数MFCC和感知线性预测PLP：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模：协同发音，指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为Bi- Phone，考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。N-Gram：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。搜索连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。Viterbi：基于动态规划的Viterbi算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下，同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别，从而使这一算法成为语音识别搜索的基本策略。由于语音识别对当前时间点之后的情况无法预测，基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性，同一时刻的各条路径对应于同样的观察序列，因而具有可比性，束Beam搜索在每一时刻只保留概率最大的前若干条路径，大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索：为在搜索中利用各种知识源，通常要进行多遍搜索，第一遍使用代价低的知识源，产生一个候选列表或词候选网格，在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典，这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解，往往要利用一些代价更高的知识源，如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析，进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。N-best搜索产生一个候选列表，在每个节点要保留N条最好的路径，会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选，但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径，保留k条。词候选网格以一种更紧凑的方式给出多候选，对N-best搜索算法作相应改动后可以得到生成候选网格的算法。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后，搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中，因而可以使用启发式的A算法进行后向搜索，经济地搜索出N条候选。系统实现语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。自适应与强健性语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性，是要提高系统克服这些因素影响的能力，使系统在不同的应用环境、条件下性能稳定；自适应的目的，是根据不同的影响来源，自动地、有针对性地对系统进行调整，在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法（以下称特征方法）和模型调整的方法（以下称模型方法）分为两类。前者需要寻找更好的、高鲁棒性的特征参数，或是在现有的特征参数基础上，加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关（SI）模型，从而使其成为说话人自适应（SA）模型。说话人自适应的特征方法有说话人规一化和说话人子空间法，模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声，包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征，模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波，模型方法有倒谱平移。微软语音识别引擎微软在office和vista中都应用了自己开发的语音识别引擎，微软语音识别引擎的使用是完全免费的，所以产生了许多基于微软语音识别引擎开发的语音识别应用软件，例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。语音识别系统的性能指标语音识别系统的性能指标主要有四项。①词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。②说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。③训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数的多少。④正确识别率：平均正确识别的百分数，它与前面三个指标有关。小结以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点，针对英语提出的技术在汉语中如何使用也是一个重要的研究课题，而四声等汉语本身特有的问题也有待解决。

从心理声学的角度来说，噪音又称噪声，一般是指不恰当或者不舒服的听觉刺激。它是一种由为数众多的频率组成的并具有非周期性振动的复合声音。简言之，噪音是非周期性的声音振动。它的音波波形不规则，听起来感到刺耳。从社会和心理意义来说，凡是妨碍人们学习、工作和休息并使人产生不舒适感觉的声音，都叫噪音。如流水声、敲打声、沙沙声，机器轰鸣声等，都是噪音。它的测量单位是分贝。零分贝是可听见音的最低强度。噪音有高强度和低强度之分。低强度的噪音在一般情况下对人的身心健康没有什么害处，而且在许多情况下还有利于提高工作效率。高强度的噪音主要来自工业机器（如织布机、车床、空气压缩机、风镐、鼓风机等）、现代交通工具（如汽车、火车、摩托车、拖拉机、飞机等）、高音喇叭、建筑工地以及商场、体育和文娱场所的喧闹声等。这些高强度的噪音危害着人们的机体，使人感到疲劳，产生消极情绪，甚至引起疾病。高强度的噪音，不仅损害人的听觉，而且对神经系统、心血管系统、内分泌系统、消化系统以及视觉、智力等都有不同程度的影响。如果人长期在 95 分贝的噪声环境里工作和生活，大约有 29% 的会丧失听力；即使噪声只有 85 分贝人，也有 10% 的人会发生耳聋； 120~130 分贝的噪声，能使人感到耳内疼痛；更强的噪音会使听觉器官受到损害。在神经系统方面，强噪音会使人出现头痛、头晕、倦怠、失眠、情绪不安、记忆力减退等症候群，脑电图慢波增加，植物性神经系统功能紊乱等；在心血管系统方面，强噪音会使人出现脉搏和心率改变，血压升高，心律不齐，传导阻碍滞，外周血流变化等；在内分泌系统方面，强噪音会使人出现甲状腺机能亢进，肾上腺皮质功能增强，基础代谢率升高，性机能紊乱，月经失调等；在消化系统方面，强噪音会使人出现消化机能减退，胃功能紊乱，胃酸减少，食欲不振等。总之，强噪音会导致人体一系列的生理、病理变化。有人曾对在噪音达 95 分贝的环境中工作的 202 人进行过调查，头晕的上中 39% ，失眠的占 32% ，头痛的占 27% ，胃痛的占 27% ，心慌的占 27% ，记忆力衰退的占 27% ，心烦的占 22% ，食欲不佳的占 18% ，高血压的占 12% 。所以，我们不能对强噪音等闲视之，应采取措施加以防止。当然，人们对噪音比较敏感，各个体之间是有很大差异，有的人对噪音比较敏感，有的人对噪音有较强的适应性，也与人的需要、情绪等心理因素有关。不管人们之间的差异如何，对强噪音总是需要加以防止的。为了防止噪音，我国著名声学家马大猷教授曾总结和研究了国内外现有各类噪音的危害和标准，提出了三条建议：（ 1 ）为了保护人们的听力和身体健康，噪音的允许值在 75~90 分贝。（ 2 ）保障交谈和通讯联络，环境噪音的允许值在 45~60 分贝。（ 3 ）对于睡眠时间建议在 35~50 分贝。我国心理学界认为，控制噪音环境，除了考虑人的因素之外，还须兼顾经济和技术上的可行性。充分的噪音控制，必须考虑噪音源、传音途径、受音者所组成的整个系统。控制噪音的措施可以针对上述三个部分或其中任何一个部分。噪音控制的内容包括：（ 1 ）降低声源噪音，工业、交通运输业可以选用低噪音的生产设备和改进生产工艺，或者改变噪音源的运动方式（如用阻尼、隔振等措施降低固体发声体的振动）。（ 2 ）在传音途径上降低噪音，控制噪音的传播，改变声源已经发出的噪音传播途径，如采用吸音、隔音、音屏障、隔振等措施，以及合理规划城市和建筑布局等。（ 3 ）受音者或受音器官的噪音防护，在声源和传播途径上无法采取措施，或采取的声学措施仍不能达到预期效果时，就需要对受音者或受音器官采取防护措施，如长期职业性噪音暴露的工人可以戴耳塞、耳罩或头盔等护耳器。噪音控制在技术上虽然现在已经成熟，但由于现代工业、交通运输业规模很大，要采取噪音控制的企业和场所为数甚多，因此在防止噪音问题上，必须从技术、经济和效果等方面进行综合权衡。当然，具体问题应当具体分析。在控制室外、设计室、车间或职工长期工作的地方，噪音的强度要低；库房或少有人去车间或空旷地方，噪音稍高一些也是可以的。总之，对待不同时间、不同地点、不同性质与不同持续时间的噪音，应有一定的区别。

声学技术杂志社

发表论文的话一般看期刊类别，按高级等级分为1类，2类到5类。一般发表在3类以上就不错了。像这样的期刊很多，我仅就三类的列出来，当然只是自然科学版的，(社科版的如果需要再说):ISTP收录、国外刊物，自然科学进展，天津大学学报（原名为：天津大学学报.自然科学与工程技术版），华东师范大学学报（自然科学版），东北大学学报（自然科学版），四川大学学报（自然科学版），中南大学学报.自然科学版（原名为：中南工业大学学报. 自然科学版），同济大学学报（自然科学版），北京理工大学学报，华南理工大学学报（自然科学版），北京工业大学学报，西北工业大学学报，南京大学学报（自然科学版），武汉大学学报（工学版），重庆大学学报（自然科学版），东南大学学报（自然科学版），北方交通大学学报，内蒙古大学学报（自然科学版），北京师范大学学报（自然科学版），中山大学学报（自然科学版），陕西师范大学学报（自然科学版），南京理工大学学报（自然科学版），太原理工大学学报，厦门大学学报（自然科学版），空军工程大学学报（自然科学版），海军工程大学学报，吉林工业大学学报.工学版，武汉理工大学学报，上海理工大学学报，合肥工业大学学报. 自然科学版，甘肃工业大学学报（改名为：兰州理工大学学报），桂林工学院学报，广西师范大学学报（自然科学版），四川大学学报（工学科学版），郑州大学学报（自然科学版），苏州大学学报（工科版），高技术通讯，云南大学学报（自然科学版），东北师范大学学报（自然科学版），上海大学学报，中国科学基金，兰州大学学报（自然科学版），西北大学学报（自然科学版），南京师范大学学报（自然科学版），中国科学技术大学学报，福建师范大学学报（自然科学版），湖南师范大学学报（自然科学版），江西师范大学学报（自然科学版），复旦学报（自然科学版），福州大学学报（自然科学版），湖南大学学报（自然科学版），山东大学学报（自然科学版），应用科学学报，华侨大学学报（自然科学版），吉林大学学报（理学版），宁夏大学学报（自然科学版），西南师范大学学报（自然科学版），湖北大学学报（自然科学版），河北大学学报（自然科学版），河南大学学报（自然科学版），南昌大学学报（理学版），四川师范大学学报（自然科学版），辽宁师范大学学报（自然科学版），山西大学学报（自然科学版），安徽大学学报（自然科学版），黑龙江大学（自然科学版），暨南大学学报（自然科学与医学版），河北师范大学学报（自然科学版），河南师范大学学报（自然科学版），湘潭大学学报（自然科学版），应用数学和力学，应用概率统计，工程数学学报，运筹学学报，数学的实践与认识，高校应用数学学报A辑，应用数学，数学杂志，生物数学学报，数学研究与评论，高等学校计算数学学报，固体力学学报，力学与实践，应用力学学报，实验力学，力学季刊，模糊系统与数学，系统工程，系统工程理论方法应用，系统科学与数学，量子光学学报，高能物理与核物理，强激光与粒子束，物理，工程热物理学报，核聚变与等离子体物理，量子电子学报，液晶与显示，波谱学杂志，应用声学，计算物理，原子核物理评论，原子与分子物理学报，红外与毫米波学报，高压物理学报，低温与超导，低温物理学报，声学技术，质谱学报，噪声与振动控制，光子学报，光谱学与光谱分析，环境化学，分析试验室，化学通报，色谱，分子催化，功能高分子学报，物理化学学报，催化学报，燃料化学学报，电化学，有机化学，分析测试学报，化学试剂，无机化学学报，煤炭转化，化学研究与应用，结构化学，生物多样性，昆虫学报，中国生物化学与分子生物学报，动物学研究，遗传，水生生物学报，应用与环境生物学报，兽类学报，人类学学报，植物生理学通讯，实验生物学报，植物学通报，植物研究，菌物系统（改名为：菌物学报），生物化学与生物物理进展，微生物学通报，武汉植物学研究，西北植物学报，广西植物，生命的化学，植物分类学报，动物学杂志，云南植物研究，昆虫分类学报，植物生理学报，四川动物，动物分类学报，新型炭材料，复合材料学报，中国腐蚀与防护学报，玻璃钢/复合材料，稀有金属材料与工程，材料导报，稀土，材料热处理学报，材料工程，材料科学与工艺，稀有金属，腐蚀科学与防护技术，宇航材料工艺，材料保护，兵器材料科学与工程，机械工程材料，耐火材料，功能材料与器件学报，煤炭学报，中国矿业大学学报，湘潭矿业学院学报，中国钨业，煤田地质与勘探，金属矿山，矿山机械，煤炭科学技术，铀矿冶，煤矿自动化，矿业研究与开发，理化检验——化学分册，钢铁，粉末冶金工业，北京科技大学学报，钢铁研究学报，矿冶工程，硬质合金，冶金自动化，冶金能源，铁合金，焊接学报，特种铸造及有色金属，机械科学与技术，铸造，机械设计，金属热处理，机械传动，振动与冲击，无损检测，制造技术与机床，真空，机械设计与研究，机械强度，传感技术学报，真空科学与技术学报，光学技术，金刚石与磨料磨具工程，润滑与密封，液压与气动，铸造技术，工具技术，低温工程，继电器，热加工工艺，机床与液压，流体机械，机械设计与制造，锻压技术，模具工业，压力容器，变压器，焊接，起重运输机械，轴承，工程机械，仪表技术与传感器，内燃机学报，电网技术，电池，电力自动化设备，微特电机，华北电力大学学报，中国电力，动力工程，电力电子技术，电气传动，高电压技术，小型内燃机与摩托车，燃烧科学与技术，微电机，水力发电学报，电气自动化，高压电器，电机与控制学报，车用发电机，中小型电机，热能动力工程，低压电器，电工技术杂志，汽轮机技术，水力发电，大电机技术，机器人，制造业自动化，光电子•激光，武汉大学学报（信息科学版），电子科技大学学报，电波科学学报，探测与控制学报，激光杂志，西安电子科技大学学报，信号处理，压电与声光，应用激光，电子技术应用，数据采集与处理，系统工程与电子技术，红外技术，光电工程，电子元件与材料，光通信技术，微波学报，弹箭与制导学报，激光技术，现代雷达，红外与激光工程，电力系统及其自动化学报，北京邮电大学学报，自动化学报，半导体技术，半导体光电，通信技术，微电子学，固体电子学研究与进展，武汉理工大学学报（信息管理版），微电子学与计算机，模式识别与人工智能，计算机应用，中文信息学报，计算机与应用化学，计算机集成制造系统（CIMS），计算机工程与应用，计算机应用研究，小型微型计算机系统，计算机工程与设计，计算机工程，微型机与应用，计算机应用与软件，中国塑料，塑料工业，合成树脂及塑料，塑料，现代化工，膜科学与技术，合成纤维，合成纤维工业，化学工程，天然气化工.C1.化学与化工，硅酸盐通报，无机盐工业，合成橡胶工业，日用化学工业，涂料工业，过程工程学报，林产工业，农药，中国医药工业杂志，北京化工大学学报，化学反应工程与工艺，橡胶工业，离子交换与吸附，海湖盐与化工，中国陶瓷，棉纺织技术，中国粮油学报，食品科学，印染，制冷学报，中国造纸，中国乳品工业，中国油脂，纺织学报，中国皮革，粮食与饲料工业，北京服装学院学报（自然科学版），丝绸，东华大学学报（自然科学版），郑州轻工业学院学报（自然科学版），酿酒技术，粮油加工与食品机械，城市规划汇刊，建筑结构，给水排水，暖通空调，工业建筑，工程勘察，建筑科学，西安建筑科技大学学报（自然科学版），建筑机械，施工技术，建筑技术，四川建筑科学研究，筑路机械与施工机械化，水处理技术，应用生态学报，环境污染治理技术与设备，化工环保，环境科学研究，生态学杂志，工业水处理，长江流域资源与环境，资源科学，海洋环境科学，环境科学与技术，农业环境保护，农村生态环境，环境工程，环境与健康杂志，环境污染与防治，中国环境监测，地震工程与工程振动，西北地震学报，地震研究，地球物理学进展，地球科学，地学前缘，地球化学，第四纪研究，地球学报，地球科学进展，古生物学报，中国沙漠，地质科技情报，地质与勘探，现代地质，成都理工学院学报，高校地质学报，地层学杂志，矿物岩石，岩石矿物学杂志，水文地质工程地质，中国岩溶，地理学报，地理研究，地理科学，干旱区地理，冰川冻土，地理学与国土研究，山地学报，地理科学进展，大地构造与成矿学，干旱区研究，中国新药与临床杂志，中国药理学通报，中国药理学与毒理学杂志，中国新药杂志，中国抗生素杂志，中国药房，中国医院药学杂志，中国临床药理学杂志，沈阳药科大学学报，中国药科大学学报，华西药学杂志另外,团IDC网上有许多产品团购,便宜有口碑

经过四十多年的发展，该所形成了独具特色的六大研究领域：水声物理与水声探测技术、环境声学与噪声控制技术、超声学与声学微机电技术、通信声学和语言语音信息处理技术、声学与数字系统集成技术、高性能网络与网络新媒体技术。2014年，声学所共有在研项目977项。其中，承担或参加国家重大科技专项课题18项，主持（或承担）973项目或课题11项，主持（或承担）863项目或课题29项；主持（或承担）国家自然科学基金重点项目4项、面上项目44项、国家杰出青年科学基金项目1项、国家自然科学基金重大研究计划重点项目1项；主持（或承担）中国科学院战略性先导科技专项课题13项，主持（或承担）院重点部署项目5项、重大仪器研制项目13项。声学所是中科院大科学装置“实验1”号科学考察船的法人单位，该科考船在2014年度完成了6个科学考察航次任务，在航155天，安全航行18961海里。2014年，声学所承担的修购专项“新安江湖上试验平台”建设完成并顺利通过项目验收，该项目新建的“实验叁号”无动力双体实验船总长48米、宽度22米、吃水米，排水量约1100吨。该船是声学所新安江实验场新一代湖上试验主力船舶，为水声装备研究与试验提供基础平台。2014年，声学所获国家科技进步二等奖1项，获中科院杰出成就奖1项，获国防科学技术进步一等奖1项、二等奖1项、三等奖1项，获北京市科学技术奖1项。2014年，声学所科研成果继续保持高位增长，全年共发表科技论文538篇，其中SCI收录66篇，EI及CPCI收录89篇；出版专著2部，译著2部；共申请专利232项，其中发明专利212项，通过PCT申请国际发明专利17项；专利授权143项，其中发明专利117项，日本发明专利1项，欧亚发明专利1项；软件著作权登记78项，集成电路布图设计20项；参与制订国家标准9项，行业标准4项。《声学学报》（中、英文版）两刊，是中国科学院声学研究所主办，中国声学学会、声学学报编辑委员会编辑出版的学术性刊物，刊载具有创造性的声学研究论文、实验性论文和重要应用性论文（包括实验工作、理论和应用研究、仪器研制）。《应用声学》是由中国科学院主管，中国科学院声学研究所主办，中国声学学会、《应用声学》编辑委员会编辑出版的学术刊物。1982年创刊，是中国科技核心期刊、中文核心期刊。刊载声学领域中具有创新性、应用性和应用基础性的研究论文、综述评论、报道新研究成果和产业化新技术的进展。《网络新媒体技术》期刊是经国家新闻出版总署批准，中国科学院主管，中国科学院声学研究所主办，依托国家网络新媒体工程技术研究中心的学术期刊，为中国科技核心期刊（中国科技论文统计源期刊）、中国期刊全文数据库收录期刊、中国学术期刊综合评价数据库统计源期刊、中国核心期刊（遴选）数据库收录期刊。《中国医学影像技术》杂志创刊于1985年，是中国国内唯一的临床医学影像学与影像医学工程及理论研究相结合的国家级学术期刊。本刊被国家工商行政管理局、卫生部、国家食品药品监督管理局认定为国家重点媒介，为中国科技论文统计源期刊（中国科技核心期刊）、《中文核心期刊要目总览》收录期刊、中国科学引文数据库核心期刊、百种中国杰出学术期刊（2010、2012年）、中国精品科技期刊（第1、2、3届）、英国《科学文摘》收录源期刊、荷兰《医学文摘》收录源期刊、俄罗斯《文摘杂志》收录源期刊、波兰《哥白尼索引》收录源期刊、《日本科学技术振兴机构中国文献数据库》（JSTChina）收录期刊。《中国介入影像与治疗学》杂志创刊于2004年，是由中国科学院主管，中科院声学研究所主办的国家级学术期刊。该刊以报道介入影像与治疗学、介入超声学、介入材料学、药物学与护理学等方面的临床研究、基础研究以及医、工、理结合的成果与新进展为主，为中国科技论文统计源期刊（中国科技核心期刊）、中国科学引文数据库核心期刊、中国期刊全文数据库全文收录期刊、中国精品科技期刊（第2届）、荷兰《医学文摘》收录源期刊、俄罗斯《文摘杂志》收录源期刊、波兰《哥白尼索引》收录源期刊。《声学技术》是上海市声学学会、中国科学院东海研究站、同济大学声学研究所和中船重工集团第726研究所合办的技术性刊物，已收录于ULRICH国际期刊指南（美国）和《中国物理文摘》。

邓杰:教授硕士生导师，1956年3月18日出生，江苏海安人，1983年7月毕业于扬州师范学院中文系，现为扬州大学新闻与传媒学院院长，学科带头人。主要从事文学艺术、电视编导、摄影艺术、教育技术等方向的研究，兼有江苏省高校教育技术研究会常务理事、学术委员；江苏省高校摄影协会副理事长、学术委员；全国高校摄影教育专业委员会常务理事；扬州市电视艺术家协会副会长等社会职务。承担着《视觉艺术》、《摄影艺术》、《电视艺术论》、《写作》、《新闻采访与写作》、《古典诗词》等课程的教学工作。主持完成了五项省级研究课题和10余项厅级课题，在研教育部人文社会基金项目--“‘忠孝礼义’的当代性研究与传播”，发表了10多篇研究论文，出版了《电视艺术论》、《宋词掇英》、《从二北到半塘——文史学家任中敏》、《教育技术学——引导教学走向艺术化境界》等专著。冯锐:副教授，硕导，1990年毕业于西北师范大学电化教育系。目前主要从事于教学设计、网络教育应用、学习技术等方向的研究工作。承担着本科和研究生“教学系统设计”、“网络教育应用”、“网络课程开发”、“教育技术学名著选读”等课程的教学工作。参与国家际课题1项，主持和参与省级、厅级各项研究课题12月项，发表学术论文20多篇，参与教材编写2部。范文霈:副教授,学士,男,1960年7月21日,1981年毕业于扬州师范学院物理系,1981—1988年扬州师范学院物理系资料员、馆员,1988—1998年扬州师范学院院电教中心讲师、电视台业务部主任,1999—2005年扬州大学教育科学与技术学院副教授、教研室主任、摄影专业主任,2003年起任教育技术学专业硕士生导师，现任扬州大学新闻与传媒学院影像艺术教研室主任、摄影专业主任，兼有江苏省高校摄影学会常务理事、学术委员，江苏摄影家协会会员。倪其育:副教授,男，1964年1月出生,扬州大学新闻与传媒学院，教育技术学专业主任，音视频技术教研室主任。主要从事《音频技术》、《多媒体技术及应用》、《教育技术概论》、《计算机装配与维护》等课程的教学及相关的科研工作。独立编著《音响技术及应用基础》（河海大学出版社1999年），《音频技术教程》（国防工业出版社2006年）。参与编写《电化教育应用技术》（上海科学文献出版社1991年），《教育技术学（北京科学文献出版社2001年）。在《电化教育研究》、《声学技术》、《扬州大学学报》、《电子制作》等杂志上发表多篇论文。主持南京大学近代声学国家重点实验室开放课题“声源指向特性的研究”（～）、校级科研项目“教室硬件环境资源优化的研究”（～）等课题的研究。主持开发的《音频技术教程》多媒体课件，获第五届全国多媒体课件大赛（2005年）一等奖。陈韵强:国家一级导演，现为扬州市广播电视总台党委副书记、副台长，兼任江苏省文联委员、中国电视艺术家协会会员、中国电视记录片学术委员会副秘书长、扬州大学的兼职教授、扬州市电视艺术家协会主席、江苏省传媒艺术研究会副会长、中国电视文艺研究会常务理事等职，先后获得国家级“五个一”工程奖2次，中国电视“金鹰奖”5次，中国电视文艺“星光奖”3次，江苏省“金凤凰奖”6次。创作的作品类型包括电视文艺片、纪录片、大型综艺晚会、电视剧等，担任总导演策划编排过《天涯共此时》、《春江花月夜》、《烟花三月》等大型综艺节目，曾连续三届担任中国电视金鹰奖的评委。武新宏：副教授，女，1965年6月出生，硕士生导师，研究生学历，河北廊坊人，扬州电视艺术家协会会员，全国高等学校影视教育学会会员，主要从事纪录片创作、电视媒介传播研究工作，主要承担《电视节目编导与制作》、《电视纪录片创作》、《新闻采访与写作》、《新闻法规与职业道德》等课程教学工作。1990—1995年在扬州文化局艺术创作室做编辑，参与《戏曲志．扬州卷》编写工作；1996—2003年在扬州电视台城市频道做电视编导，期间主要作品多次获得江苏省优秀电视节目金凤凰奖二等奖、省优秀文艺节目二等奖、省优秀新闻节目三等奖等奖项，在《中国广播电视学刊》、《电视研究》、《当代传播》、新闻界》等核心刊物上发表论文10多篇，主持或参与多项省厅级科研项目研究。

声学检测技术论文

是音色，物体的振动快慢影响着音调，它决定着音调的高低。而音色取决于材料的不同。西瓜成熟和未成熟时，它的瓜不同。所以是音色而不是音调。

超声波检测技术是现代科学技术发展的产物，其检测的过程会很好的保护试件的质量和性能，这是我为大家整理的超声波检测技术论文，仅供参考!

关于超声波无损检测技术的应用研究

摘要：超声波无损检测技术是现代科学技术发展的产物，其检测的过程会很好的保护试件的质量和性能，从而获取物品的性质和特征对其进行检测。超声波无损检测技术通过结合高科技的技术来完成检测的过程，检测的结果真实可靠，可以体现出超声波无损检测技术的应用性，同时超声波无损检测技术在检测时，也存在一些缺点。

关键词：超声波无损检测;脉冲反射式技术;检测技术

中图分类号：P631 文献标识码：A 文章编号：1009-2374(2014)05-0029-02

超声波无损检测技术在检测的过程中，会使用到很多的技术，这些技术既满足了检测的需要，又能有效的解决检测中出现的问题。经过技术人员的不断探索，通过人工神经网络的技术来减少检测的缺陷，并实现了降低噪音的效果，满足了超声波无损检测的更高要求。在检测的过程中，要合理科学的利用技术手法，来提高检测结果的准确性。

1 超声波无损检测技术的发展趋势和主要功能

超声波无损检测技术的发展趋势

在超声波无损检测技术应用的过程中，需要很多理论知识的支持，检测时也对检测的方法和工艺流程有严格的要求，这些规范的检测方式使超声波无损检测的结果可以更准确。发现检测缺陷时，技术人员应用非接触方式的检测技术，运用激光超声来提高检测的效果，所以未来超声波无损检测技术一定会向着自动化操作的水平去发展。自动化的检测方法可以简化检测工作，实现专业检测的目标，扩大超声波无损检测技术应用的范围，同时随着超声技术的应用，在检测的过程中，也会实现数字化检测的目标，利用超声信号来处理技术的应用，使检测技术可以实现统一使用的要求，同时数字化操作的检测过程也会提高检测的准确性，有利于检测技术的发展。所以超声波无损检测技术将会实现全面的现代化操作要求，利用现代化科学技术的发展，来规范超声波无损检测的检测行为，也具备了处理缺陷的功能，提高了检测的效率。

超声波无损检测技术系统的主要功能

目前，我国超声波无损检测主要应用的技术是脉冲反射式的检测方法，这种技术的应用可以准确的定位缺陷出现的位置和形式，具有非常高的灵敏度，简化了技术人员检查缺陷的工作，完善了技术标准。脉冲反射式的检测技术还具有非常高的灵活性和适用性，可以适应超声波无损检测的要求，并实现一台仪器检测多种波形的检测工作。根据脉冲反射式的检测技术要求，可以实现缺陷检查的功能、操作界面切换显示的功能、显示日历时钟的功能，在实际的检测过程中功能键的使用也非常方便，简化了技术人员的操作过程，并且脉冲反射式技术具有灵敏度高的功能，使其可以及时的发现检测过程中出现的缺陷，有利于技术人员进行检修的工作，提高了检测工作的工作效率。

系统主要功能的技术指标

脉冲反射式技术在使用的过程中有很多的要求，其中要满足功能使用的技术指标，从而实现规范化的操作标准。反射电压的电量要控制在400伏，实现半波或者射频的检波方式，检测的范围要在4000-5000毫米之间，只有满足了这些技术标准才能合理的设置出技术应用的框架。同时在超声波无损检测技术应用的过程中有严格要求的电路设计，如果不能满足技术的指标要求，那么在实际检测的过程中，会存在很大的风险，会对技术人员造成严重的生命安全威胁。所以在检测工作实施之前，必须要按照相关的技术指标来合理的构建检测的环境，提高检测工作的安全性，保障检测工作可以顺利的进行。

2 超声波无损检测技术检测的方法和缺陷的显示

超声波无损检测技术检测的主要应用方法

超声波无损检测技术的检测方法按照具体的分类可以分为很多种，从检测的原理进行分析，超声波无损检测技术应用的主要方法是穿透法、脉冲反射法、共振法，按照检测探头来分类，检测的主要方法有单探头法、双探头法、多探头法，按照检测试件的耦合类型来分类，检测的主要方法有液浸法、直接接触法。这些具体的方法可以满足很多情况下的检测工作，并且提高了检测结果的准确性，完善了超声波无损检测技术的检测要求，所以技术人员要根据具体的检测环境和试件的类型来选择正确的检测方法，通过方法的应用要提高检测工作的效率，降低缺陷出现的可能。随着我国现代化科学技术的不断发展，人们对检测技术的应用也提出了更高的要求，检测工作的检测范围也越来越广，同时要求在对试件检测的过程中，不可以损坏试件的质量和性能，同时还要保准检测结果的准确性，所以技术人员要严格的按照检测标准，完成检测的工作，要对检测的方法进行改善，使其可以满足时代发展的要求。

缺陷的显示

在超声波无损检测技术检测的过程中，会出现不同类型的缺陷，主要分为A、B、C三种类型的显示，在工业检测的过程中，A类显示是应用最广泛的一种类型，在显示器上以脉冲的形式显示出来，对显示器上的长度和宽度进行标记，从而当超声波返回缺陷信号时，可以在屏幕上明确的显示出缺陷出现的位置。B类显示是通过回波信号来完成显示的过程，回波信号发出时会点亮提示灯，通过显示器的显示可以观察到缺陷出现的水平位置，这种类型的显示比较直观，有利于技术人员的观察和分析。C类显示是通过反射的回波信号来调制显示的内容，通过亮灯和暗灯来显示接收的结果，检测到缺陷时会出现亮灯，因此技术人员只需要观察灯的变化，就可以判断缺陷出现的情况。所以在实际检测的过程中，技术人员一定要认真观察缺陷出现的位置和内容，从而制定出科学合理的改善方案，来降低缺陷出现的可能，提高超声波无损检测技术检测的效果。

缺陷的定位

对于脉冲反射式超声检测技术来说，显示器的水平数值变化就是缺陷出现的位置，这时技术人员要对缺陷出现的位置进行定位，从而可以分析在检测过程中出现缺陷的环节。根据反映出的缺陷声波，经过计算，得出准确的缺陷产生的位置。

3 结语

科学技术的发展会带动我国的生产力水平的提高，同时也会促进技术的研发，超声波无损检测技术就是因为科学技术的不断发展，才实现了检测的目标，在检测的过程中，可以结合现代化的技术来提高检测的效率和结果的准确性。超声波无损检测技术实现了无损试件的检测要求，提高了检测的质量和水平，应该得到社会各界的关注，扩大检测的范围。

参考文献

[1] 耿荣生.新千年的无损检测技术――从罗马会议看无损检测技术的发展方向[J].无损检测，2010，23(12)：152-156.

[2] 中国机械工程委员会无损检测分会编.超声波检测第二版(无损检测Ⅱ级培训教材)[M].北京：机械工业出版社，2012.

[3] 李洋，杨春梅，关雪晴.基于AD603的程控直流宽带放大器设计[J].重庆文理学院学报(自然科学版)，2010，29(16)：202-203.

[4] 段灿，何娟，刘少英.多小波变换在信号去噪中的应用[J].中南民族大学学报(自然科学版)，2012，28(12)：320-325

[5] 张梅军，石文磊，赵亮.基于小波分析和Kohonen神经网络的滚动轴承故障分析[J].解放军理工大学学报，2011，12(10)：14-15.

作者简介：李新明(1992―)，男，湖北人，大连理工大学学生。

长输管道超声波内检测技术现状

【摘要】超声波内检测技术是长输管道的主要检测技术。本文介绍了长输管道超声波内检测的技术优势、国内外的发展现状，以供参考。

【关键词】长输管道超声波内检测优势现状

一、前言

长输管道是石油、天然气重要的运输手段，要保证管道的稳定运行，就要加强日常的检测和维护，及时发现问题，防止重大事故发生。

二、管道内检测主要技术及优势

管道内检测是涵盖检测方案决策、管道检测、检测数据解释分析和管道安全评价等过程的系统工程。利用智能检测器进行管线内检测是目前较为普遍的方式，该方法是通过运行在管道内的智能检测器收集、处理、存储管道检测数据，包括管道壁厚、管道腐蚀区域位置、管道腐蚀程度、管道裂纹和焊接缺陷，再将处理数据与显示技术结合描绘管道真实状况的三维图像，为管道维护方案的制定提供决策依据。超声波内检测技术和漏磁检测技术是现在最常用的海管内检测技术。

超声波内检测技术是在检测器中心安放一个水平放置的超声波传感器，传感器沿着平行于管壁的方向发射声波，声波沿着平行于管壁的方向行进直至被一个旋转镜面反射后，垂直穿透管道壁，声波触碰管道外壁后按照原路径反射回传感器，计算机计算声波发射及反射回传感器的时间，该时间就被转换为距离及管道壁厚的测量值。声波反射镜面每秒旋转2周，检测器每米可以采集3万个左右的测量值。超声波内检测技术可以原理简单，数据准确可靠，该方法可以精确测量管道的壁厚，不仅可以测量金属管线，对于非金属管线，如高密度聚乙烯管也能够有效测量，并且可测管道管径的尺寸范围较大，甚至能够测量壁厚等级80以上的大壁厚管道，对于变径管道同样适用。

管道漏磁检测技术利用磁铁在管壁上产生的纵向回路磁场来探测管道内外壁的金属损失以及裂纹等缺陷，确定上述缺陷的准确位置，检测器所带磁铁将检测器经过的管壁饱磁化，使管壁周圈形成磁回路。若管道的内壁或外壁有缺陷，围绕着管道缺陷，管道壁的磁力线将会重新进行分布，部分磁力线会在这个过程中泄露从而进入到周围的介质中去，这就是所谓的漏磁场。磁极之间紧贴管壁的探头检测到泄漏的磁场，检测到的信号经过滤波、放大、转换等处理过程后会被记录到存储器中，通过数据分析系统的处理对信号进行判断和识别。管道的漏磁检测技术具有准确性高的优点，通过在气管线中低阻力和低磨损的设计取得较高质量的数据，可以在没有收球和发球装置的情况下完成检测，对于路径超过200公里的长输管道能够以每分钟200米左右的速度进行检测。

三、长输管道建设工艺技术发展现状

1、管道焊接

管道焊接是管道建设的最重要的一个方面，现场焊接的效率高，安全性和可靠性在每个管道的建设是重要的角色。从国内长途管道工程在1950年的第一条运输管道建设以来，管道现场焊接施工在我国发展的半个世纪里主要经历了有四个发展过程，分别是：手工电弧焊上向焊、手工电弧焊下向焊、半自动焊和自动焊。

(1)手工电弧焊上向焊和手工电弧焊下向焊。90年代初手工电弧焊下向焊和手工电弧焊下向焊作为当时国内传输管道的一种焊接方法，得到了广泛的应用，突出的优点是高电流、焊接速度高，根焊接速度可达20到50厘米/分钟，焊接效率高。目前在进行焊接位置相对困难的位置和焊接设备难进入的位置时采用手工电弧焊焊接。

(2)半自动焊。电焊工通过半自动焊枪进行焊接，由连续送丝装置送丝焊接的一种方式叫做半自动焊。半自动焊是长输管道焊接的主要方式，因为在焊接送丝比较连续，就省了换焊条和其他辅助工作时间，同时熔敷率高、减少焊接接头，减少焊接电弧，电弧焊接缺陷、焊接合格率提高，

(3)自动焊。自动焊方法使整个焊接过程自动化，人工主要从事监控操作。国内开始从西到东的天然气管道项目，就是大面积的自动焊接的应用程序。自动焊接技术在新疆，戈壁等地区比较适合。

2、非开挖穿越施工技术

遇到埋管道的建设，跨越河流，道路，铁路等障碍时，有许多问题如果使用传统开挖方法则会比较难实施，而“非开挖”铺设地下管道是当前国际管道项目进行了先进的施工方法，已广泛应用于这个国家。我国近年来建设大量的长输管道采用了盾穿越技术，有许多大河流使用了盾构穿越。顶管穿越通过短距离管道穿越技术在1970年代后期开始得到使用。传统意义上的顶管施工是以人工开采为主。后来当使用螺旋钻开采和输送管顶土，后来又派生出了土压力平衡方法，泥水平衡方法，通过顶管技术，可以达到超过1千米以上的距离。通过液压以控制管切割前方的覆土，以保证顶管的方向正确，和顶采用继电器，激光测距，头部方位校正方法顶推的施工工作，长距离顶管的问题和方向问题得到了解决。

3、定向穿越技术

我国从美国引进的定向钻是在1985年首次应用于黄河的长输管道建设。在过去的20年里，非开挖定向穿越管道技术在我国得到了迅速的发展。定向钻井在非开挖管道穿越技术已广泛应用于管道业。定向钻用于铺设管道取得了巨大的成就。我国在2002年2月以2308米和273米直径的长度穿越了钱塘江，是世界上最长的穿越长度，被载入吉尼斯世界纪录。定向穿越管道施工技术是一个多学科，多技术，根据于一体的系统工程，任何部分在施工过程中存在的问题的设备集成，并可能导致整个项目的失败，造成了巨大的损失。而被广泛使用，由于定向钻井，通过建设，使技术已经取得了长足的进步和发展的方向。硬石国际各种施工方法，如泥浆马达，震荡的顶部，双管钻进的建设。广泛采用PLC控制，电液比例控制技术，负荷传感系统，具有特殊的结构设计软件的使用。

四、管道超声内检测技术现状

1、相控阵超声波检测器

美国GE公司研制的超声波相控阵管道内检测器于2005年开始应用于油气管道内检测，目前已检测管道长度4700km，该检测器包括两种不同的检测模式：超声波壁厚测量模式和超声腐蚀检测模式，适用于管径610～660mm的成品油管道。该检测器有别于传统检测器的单探头入射管道表面检测的方法，采用探头组的形式来布置探头环，几个相邻并非常靠近(间距左右)的探头组成一个探头组，一个探头组内的探头按照一定的时间顺序来激发并产生超声波脉冲，而该激发顺序决定了产生的超声波脉冲的方向和角度，因此控制一个探头组内不同探头的激发顺序就可以产生聚焦的超声波脉冲。检测器包括3个探头环、44个探头组，每个探头环提供一种检测模式，可根据不同的管道检测需求来确定探头环。

该检测器与其他内检测器相同，包括清管器、电源、相控阵传感器、数据处理和储存模块4部分。清管器位于整个检测器的头部并装有聚氨酯皮碗，一方面负责清管以确保检测精度，另一方面起密封作用，使得检测器可以在前后压力差的作用下驱动前进。探头仓由3个独立的探头环组成，每个探头环的探头布置都能实现超声波信号周向全覆盖。检测器能够实现长25mm、深1mm的裂纹检测，检测准确率超过90%;最小检测腐蚀面积10×10mm ，检测精度大于90%。

2、弹性波管道检测器

安桥管道公司管理着世界上最长和最复杂的石油管道网络。其研发的内检测器已经在超过15000km的管道中开展检测。其中基于声波原理的检测器主要有弹性波检测器和超声波管道腐蚀检测器。弹性波检测器的弹性波信号可以在气体管道中传播，主要用于检测管道的焊缝特征，尤其是对长焊缝和应力腐蚀裂纹有较好的检测效果。最新的MKIII弹性波检测器最多可以装备96个超声波传感器，用于在液体祸合条件下发射接收超声波信号，进行管道检测。MKIII弹性波检测器的最大运行距离为150km，相对于二代产品的45km有了很大程度的提高。

五、结束语

综上所述，随着科技水平的快速发展和进步，超声波内检测技术也将更加完善，对于长输管道的检测也将更加准确，为管道的正常使用和安全运行发挥更大的作用。

参考文献

[1]宋生奎，宫敬，才建，等.油气管道内检测技术研究进展[J].石油工程建设，2013，31(2)：10-14.

[2]石永春，刘剑锋，王文军.管道内检测技术及发展趋势[J].工业安全与环保，2012，32(8)：46-48

[3]丁建林.我国油气管道技术和发展趋势.油气储运，2013，22(9)：22-25.

[4]宋生奎，宫敬，才建等.油气管道内检测技术研究进展.石油工程建设，2014，31(2)：11-13.

[5]高福庆.管道内检测技术及发展.石油规划设计，2010，11(1)：78

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

语音识别技术概述

作者：刘钰马艳丽董蓓蓓

摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前，语音识别方面的困难主要表现在：

(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献：

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

声学技术几类期刊

好中。《声学技术》杂志创办于1982年，是中国科学院主管的国家重点学术期刊，北大期刊。由于《声学技术》的在线投稿系统很完善，并且杂志的权威性不高，审核并不严格，因此作者投稿后还是比较好中的。《声学技术》是中国科学院声学研究所东海研究站、同济大学声学研究所、上海市声学学会和中船重工集团第726研究所合办的学术性刊物。

就是EI目录里的。

《工程索引》（The Engineering Index，简称EI）创刊于1884年，是美国工程信息公司(Engineering information Inc.)出版的著名工程技术类综合性检索工具。EI每月出版1期，文摘万至万条；每期附有主题索引与作者索引；每年还另外出版年卷本和年度索引，年度索引还增加了作者单位索引。出版形式有印刷版（期刊形式）、电子版（磁带）及缩微胶片。EI选用世界上工程技术类几十个国家和地区15个语种的3500余种期刊和1000余种会议录、科技报告、标准、图书等出版物。年报道文献量16万余条。收录文献几乎涉及工程技术各个领域。例如：动力、电工、电子、自动控制、矿冶、金属工艺、机械制造、土建、水利等。它具有综合性强、资料来源广、地理覆盖面广、报道量大、报道质量高、权威性强等特点。 EI把它收录的论文分为两个档次 1 、EI Compendex 标引文摘它收录论文的题录、摘要，并以主题词、分类号进行标引深加工。有没有主题词和分类号是判断论文，是否被EI正式收录的唯一标志。2 、EI Page One题录主要以题录形式报到。有的也带有摘要，但未进行深加工，没有主题词和分类号。所以Page One 带有文摘不一定算做正式进入EI。 EI 对稿件内容和学术水平的要求 1、具有较高的学术水平的工程论文, 包括的学科有: —— 机械工程、机电工程、船舶工程、制造技术等； ——矿业、冶金、材料工程、金属材料、有色金属、陶瓷、塑料及聚合物工程等； —— 土木工程、建筑工程、结构工程、海洋工程、水利工程等； ——电气工程、电厂、电子工程、通讯、自动控制、计算机、计算技术、软件、航空航天技术等； ——化学工程、石油化工、燃烧技术、生物技术、轻工纺织、食品工业； ——工程管理。 2、国家自然科学基金资助项目、科技攻关项目、"八六三"高技术项目等。 3、论文达到国际先进水平, 成果有创新。 EI不收录纯基础理论方面的论文。

EI期刊是指被EI检索的期刊，这种期刊又叫EI源刊，EI论文有期刊论文和会议论文两种，一般来说期刊论文质量要高于会议论文，但是两种论文都是EI级别的论文，如果觉得EI期刊论文录用难度大，可以考虑发EI会议论文，你百度下：EI学术会议中心，专门研究EI会议的，算是不错了

声学技术期刊等级

国家文学类一级刊物主要有：《十月》、《收获》、《人民文学》、《昆仑》、《钟山》、《小说月报》、《芙蓉》、《清明》、《啄木鸟》、《读者》、《花城》等。这些纯文学刊物水平都是很高的。

这个是每个省或者是单位根据自身的情况。

从公开发行的期刊中选择一部分的期刊自主来定的每个省的要求。

或者说单位的要求都不太一样，建议你向所在单位了解会比较合适。

一级期刊，二级期刊，

这个是每个单位根据自身的情况，从公开发行的期刊中选择一部分的期刊自主来定的

每个单位的要求都不太一样，你问一下单位的员工比合适，，

索引序列
声学技术论文
声学技术杂志社
声学检测技术论文
声学技术几类期刊
声学技术期刊等级
返回顶部

声学技术论文