Tree-Based State Tying for High Accuracy Modelling 公式理解

最新推荐文章于 2025-02-04 09:16:52 发布

原创最新推荐文章于 2025-02-04 09:16:52 发布 · 1.6k 阅读

1 ·

CC 4.0 BY-SA版权

论文整理专栏收录该内容

1 篇文章

订阅专栏

本文探讨了一种用于语音识别的决策树聚类方法，通过使用三音素的HMM状态来实现。主要关注如何利用观测特征的似然来指导决策树的分裂过程，并详细解释了相关数学公式的推导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇博客主要是对其公式的理解
【和同学讨论后发现自己理解有问题，原因就是这里的那个occupation counts( $\gamma$ )是个概率，而且这个概率还是之前HMM中估计参数的时候用的那个】

以下内容有误还未修改，不建议看继续看

前情提要
该论文主要是语音识别用决策树对三音素的HMM状态进行聚类。
其实就是决策树的一种分裂时选择问题的方式。我们一般用信息增益，信息增益比，基尼指数，方差，但这里用的是对观测特征的似然。
先给出论文中的公式

$L(S)=\sum_{f\in F}\sum_{s\in S}log(Pr(o_f;\mu(S),\sum(S)))\gamma_s(o_f)\quad(1)$

[嗯，然后论文中竟然还少了一个括号，再加上写的这么复杂，刚开始我都不知道那个少的括号补在哪里]

$L(S)=-\frac{1}{2}(log[(2\pi)^n|\sum(S)|]+n)\sum_{s\in S}\sum_{f\in F}\gamma_s(o_F)\quad(2)$

自己理解下的推导
用似然作为标准其实就是希望对于训练数据的所有观测帧集合O似然增大，即

$argmax_{S_y,s_n} L(F|S_y)+L(F|S_n)-L(S)$
其中 $S_y,S_n$ 组成集合S，S和论文的含义一样是聚在树种某个node中的三音素状态集合

论文中所求的L(S)其实是L(F|S)，其最直观的表示如下

L (F | S) = \sum f F i n S l o g P (o f | θ) = \sum f F i n S l o g P (o f | N (μ (S), \sum (S)))

$\begin{align} L(F|S)&=\sum_f^{F_{inS}}logP(o_f|\theta)\\ &=\sum_f^{F_{inS}}logP(o_f|N(\mu(S),\sum(S))) \end{align}$
其中

FinS $F_{inS}$ 表示在F中出现在S中的

of $o_f$ 组成的集合

论文中貌似为了想统一用F表示，于是写成了如下

L (F | S) = \sum f F l o g P (o f | N (μ, \sum)) \sum s S p (s | o f)

$L(F|S)=\sum_f^Flog P(o_f|N(\mu,\sum))\sum_s^Sp(s|o_f)$
这个式子就和论文中的公式(1)是一致的。

设 $A=\sum_s^Sp(s|o_f)$ ，其实若f在S中A=1否则A=0。也可以把 $o_f$ 理解为唯一的数据，因此p(s|o_f)就是个0,1二值数。
上式中 $p(s|o_f)$ 就是论文所说的那个后验 $\gamma_s(o_f)$ ，而
$|F_{inS}|=\sum_{f\in F}\sum_{s\in S}p(s|o_F)$