语音识别工具kaldi简介

最新推荐文章于 2025-03-30 09:29:47 发布

原创

最新推荐文章于 2025-03-30 09:29:47 发布 · 4.7k 阅读

CC 4.0 BY-SA版权

文章标签：

Kaldi是用C++开发的语音识别工具，基于Apache许可证，集成多种语音识别模型，下载量超两万次，被众多高校和企业使用。介绍了Kaldi之父Daniel Povey，还阐述了Kaldi架构，以及OpenFst中FST、WFSA、WFST等概念。

Kaldi 是一个语音识别工具。使用 C++ 开发，基于 Apache 许可证。目的是为语音识别研究者提供。

Kaldi集成了多种语音识别模型，包括隐马尔可夫和最新的深度学习神经网络，自 2011 年发布以来下载量超过了两万多次。无论是工业界还是学术界，几乎所有的语音团队都在使用Kaldi引擎来开发智能解决方案，包括MIT、哈佛、清华、微软、谷歌、Facebook等等。

Daniel Povey是语音识别领域的执牛耳者，他主要开发和维护的开源工具Kaldi，是业界公认的语音识别框架的基石，他也被称为Kaldi之父。

Daniel在2012年加入约翰斯·霍普金斯大学，担任语言和语音处理中心任副教授。在此之前，他在IBM研究院、微软研究院从事计算机语音识别研究。2019年10月，Daniel正式加入小米公司，担任小米集团首席语音科学家。

在这里插入图片描述

最上面是外部的工具，包括用于线性代数库BLAS/LAPACK和OpenFst。中间是Kaldi的库，包括HMM和GMM等代码，下面是编译出来的可执行程序，最下面则是脚本，用于实现语音识别的不同步骤(比如特征提取，比如训练单因子模型等等)。

对应大部分Kaldi的用户来说，我们只需要使用脚本和配置文件就可以完成语音识别系统的训练和预测了

OpenFst是一个用于构造，组合，优化和搜索加权有限状态转换器（FST）的库。
FST在语音识别和合成，机器翻译，光学字符识别，模式匹配，字符串处理，机器学习，信息提取和检索等方面具有关键应用。
通常，加权转换器用于表示概率模型（例如，n元语法模型，发