走进语音识别中的WFST（一）

最新推荐文章于 2025-10-23 11:24:14 发布

原创

最新推荐文章于 2025-10-23 11:24:14 发布 · 置顶 · 3w 阅读

92 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #WFST #半环 #HCLG

本文探讨了语音识别中的WFST（Weighted Finite-state Transducer）技术，介绍了WFST的基本概念、半环代数理论，并提及在HCLG中的应用。通过理解WFST的Composition、Determinization和Minimization算法，可以更好地掌握其在ASR解码器中的作用。

本人最近在研究语音识别的生成Graph和Lattice的模块，其中用到了WFST这个概念，惊叹于它的神奇也被它的复杂搞得晕头转向。于是决定静下心来仔细研读了Mohri大牛的Speech Recognition with Weighted Finite-state Transducer这篇论文和一些相关资料，算是入门了其中的算法，有些体悟在这里和大家一起探讨，也算是对自己近期学习的一个总结。本系列会先引入WFST的概念，然后介绍它的三大算法：Composition、Determinization和Minimization，最后介绍WFST在语音识别中的应用，即HCLG的操作。

首先先明确几个概念。有限状态转换器FST(finite-state transducer) 和加权有限状态转换器WFST(weighted finite-state transducer)的不同就是后者转移路径上附有权重；而WFST和WFSA(weighted finite-state acceptor)的区别就是前者的状态转移上的label既有输入又有输出而后者只有一个label。我们用WFST来表征ASR中的模型（HCLG），可以更方便的对这些模型进行融合和优化，于是可以作为一个简单而灵活的ASR的解码器（simple and flexible ASR decoder design）。
WFSA
WFST

WFST是基于半环代数理论的，在介绍半环之前我先简单的说一下群和半群。

群（Group）：G为非空集合，如果在G上定义的二元运算*，满足：
（1）封闭性（Closure）：对于任意 $a,b∈Ga,b\in G$ ,有 $a∗b∈Ga*b\in G$ ;
（2）结合律（Associativity）：对于任意 $a,b,c∈G,(a∗b)∗c=a∗(b∗c)a,b,c\in G,(a*b)*c=a*(b*c)$ ;
（3）幺元（Identity）：存在幺元e，使得对于任意 $a∈G,e∗a=a∗e=aa\in G,e*a=a*e=a$ ;
（4）逆元：对于任意a $∈\in$ G,存在逆元 $a^{-1}*a=a*a^{-1}=e$ .
则称（G,*）为群。