声学报分析模型

发布时间：2023-12-06 01:21

声学报分析模型

可以把声音分解成波形。
声波通常是纵波，也有横波。因为声波所到之处的质点沿着传播方向在平衡位置附近振动，声波的传播实质上是能量在介质中的传递。
纵波是质点的振动方向与传播方向平行的波。在纵波中波长是指相邻两个密部或疏部之间的距离。如敲锣时，锣的振动方向与波的传播方向就是平行的，声波是纵波。

声学模型的拓扑结构

由于语音的时序性，隐马模型的拓扑结构一般都取为自左向右的结构。一般每个状态都包括自跳转弧。是否允许跨状态跳转则没有一个定论。下图是典型的模型拓扑结构示意图。状态个数的选择对于系统性能的影响是很大的。建模单元选择声学模型的建模单元的选择需要考虑三方面的因素。其一是该单元的可训练性，亦即是否能够得到足够的语料对每个单元进行训练，以及训练所需要的时间长短是否可接受。其二是该单元的可推广性，当语音识别系统所针对的词汇集\mathcal{W}发生变化时，原有建模单元是否能够不加修改的满足新的词汇集\mathcal{W'}。最后还需要考虑建模的精确性。根据时间尺度的长短，建模单元可以选择为句子，短语，词，音节，音子乃至更小的半音子。一般可以认为有这样的原则，时间尺度越短的建模单元，其可训练性及推广性就越强，而时间尺度越长的单元，其精确性就越强。同时，可以看出，句子、短语、词三个概念是语言学上的概念，而音节、音子则是语音学上的概念，一般来说，如果声学模型所针对的应用环境不是确定词汇量的系统，那么采用语言学的概念的建模单元是不具备推广性的。为了将协同发音现象(Coarticulation)融入建模中，上下文相关的建模单元(Context Dependent Modeling Units, CD uinits)是一个很好的选择。其思路是，对于某个音子ah，根据上下文的不同将其拆分成不同的建模单元。例如，用b-ah+d表示ah在b之后，d之前发音的具体实现。上下文的选择方法有很多，最常见的是三音子建模单元，也就是考虑左上文右下文各一个音子，加上中心音子形成三音子对。上下文相关建模大大提高了建模的准确性，但是同时也使得模型数量急剧膨胀，使得模型的可训练性大大降低。为了解决这一问题，就需要引入某些聚类算法来减少模型中需要训练的参数。

语音识别的声学模型

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模：协同发音，指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为Bi- Phone，考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。

上一篇：新闻类论文大全

下一篇：杂志阁楼pdf

声学报分析模型