Kaldi是当前最流行的开源语音识别工具(Toolkit),它使用WFST来实现解码算法。Kaldi的主要代码是C++编写,在此之上使用bash和 python 脚本做了一些工具。
Kaldi架构如所示,最上面是外部的工具,包括用于线性代数库BLAS/LAPACK和我们前面介绍过的OpenFst。中间是Kaldi的库,包括HMM和GMM等代码,下面是编译出来的可执行程序,最下面则是一下脚本,用于实现语音识别的不同步骤(比如特征提取,比如训练单因子模型等等)。
Kaldi架构

参考资料:
Kaldi简介
Kaldi是一个广泛使用的开源语音识别工具,基于WFST的解码算法,采用C++编写,支持bash和python脚本。其架构包括外部工具(如BLAS/LAPACK,OpenFst),Kaldi库(含HMM和GMM代码),可执行程序及实现识别步骤的脚本。
1534





