摘录自 http://blog.youkuaiyun.com/zouxy09/article/details/7941055
这里记载的主要是以前的传统方法,并不太涉及深度学习。
语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合而成。
一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等。
协同发音(指的是一个音受前后相邻音的影响而发生变化,从发生机理上看就是人的发生器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。)的存在使得音素的感知与标准不一样,所以我们需要根据上下文来辨别音素。将一个音素划分为几个亚音素单元。如:数字“three”,音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,这就是为什么在用HMM模型做语音识别时,选择音素的三状态HMM模型。(上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音只考虑前一音得到影响称为Bi-Phone,考虑前一音和后一音的影响称为Tri-Phoe)
音素phones构成亚单词单元,也就是音节syllables。音节是一个比较稳定的实体,因为当语音变得比较快的时候,音素往往发生改变,但是音节不变。音节与节奏语调的轮廓有关。音节经常在词汇语音识别中使用。
亚单词单元(音节)构成单词。单词在语音识别中很重要,因为单词约束了