大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。
HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:
一个是用具有有限状态数的Markov 链来模拟语音信号统计特性变化的隐含的随机过程,
另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。
前者通过后者表现出来,但前者的具体参数是不可测的。
人的言语过程实际上就是一个双重随机过程,
语音信号本身是一个可观测的时变序列,
是由大脑根据语法知识和言语需要(不可观测的状态) 发出的音素的参数流。
可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。