一 HTK简介
HTK(HMM Tools Kit)是一个剑桥大学开发的专门用于建立和处理HMM的实验工具包[1],主要应用于语音识别领域,也可以应用于语音合成、字符识别和DNA排序等领域。HTK经过剑桥大学、Entropic公司及Microsoft公司的不断增强和改进,使其在语音识别领域处于世界领先水平,另外,HTK还是一套源代码开放的工具箱,其基于ANSI C的模块化设计方式可以方便地嵌入到用户系统中。
二 HTK的使用方法
HTK目录结构
htk是一个开源的软件,解压之后的目录如下:
此外,几个重要的文件说明如下:
env:编译的环境变量设置。
HLMLib:HMM语言模型库。
HLMTools:HMM语言模型工具。
HTKBook:开发帮助文档。
HTKLib:HTK的声学库文件。
HTKTools:HTK的声学开发工具。
对于声学部分来说,比较重要两个文件夹是后面的两个文件夹。
HTK原理
HTK软件的体系结构如下图所示:
整个HTK是使用HMM作为语音识别的核心,当HMM应用于孤立词语音识别时,它用不同的隐含状态来描述不同的语音发音,对于连续语音识别系统,多个孤立词HMM子模型按一定的语言模型组成的复合HMM模型序列来刻画连续的语音信号,在序列中每个模型直接对应于相关的发音,并且每一个模型都有进入和退出状态,这两个状态没有对应的观察矢量,只用于不同模型的连接。
上图中的 HTK Tool周边的一些库都是HTKLib,这些库