语音识别中DT训练和ML的区别

X表示训练数据中的语音信号,W代表训练数据中的文本, θ \theta θ代表声学模型参数,LM语言模型是固定的。
ML的目标函数是:
θ ^ M L = arg ⁡ max ⁡ θ p θ ( X ∣ W ) {{\hat \theta }_{ML}} = \arg \mathop {\max }\limits_\theta p{}_\theta (X|W) θ^ML=argθmaxpθ(XW)
而DT的目标函数是:
θ ^ D T = arg ⁡ max ⁡ θ p θ ( W ∣ X ) {{\hat \theta }_{DT}} = \arg \mathop {\max }\limits_\theta p{}_\theta (W|X) θ^DT=argθmaxpθ(WX)
区别在于条件概率不同。ML中,只要训练文本产生训练语言的概率大就行了。而DT要求的是训练语音对于训练文本的概率大。即就是要训练文本产生训练语音的概率,与其他文本产生训练语音的概率之差大。对DT目标函数用一次贝叶斯公式就可以看出:
θ ^ D T = arg ⁡ max ⁡ θ p θ ( X ∣ W ) p ( W ) p θ ( X ) = arg ⁡ max ⁡ θ p θ ( X ∣ W ) p ( W ) ∑ w p θ ( X ∣ w ) p ( w ) {{\hat \theta }_{DT}} =\arg \mathop {\max }\limits_\theta \frac{{p{}_\theta (X|W)p(W)}}{{p{}_\theta (X)}} = \arg \mathop {\max }\limits_\theta \frac{{p{}_\theta (X|W)p(W)}}{{\sum\nolimits_w {} p{}_\theta (X|w)p(w)}} θ^DT=argθmaxpθ(X)pθ(XW)p(W)=argθmaxwpθ(Xw)p(w)pθ(XW)p(W)
分子上的 p θ ( X ∣ W ) p{}_\theta (X|W) pθ(XW),正是ML的目标函数;而分母则是所有文本(包括训练文本和它的所有竞争者)产生训练语音的概率(按语言模型加权的)和。
由于分母上要枚举所有可能的文本并不现实,所以实际中,一般使用一个已有的ML训练的语音系统对训练语音做一次解码,得到n-best或lattice,用这里面的文本来近似分母上的求和。n-best list或lattice中包含了训练文本的足够接近的竞争者。
对DT的目标函数取对数,可以得到:
θ ^ D T = arg ⁡ max ⁡ θ ( l o g p ( W ) + l o g P θ ( X ∣ W ) − l o g ∑ w p θ ( X ∣ w ) p ( w ) ) {{\hat \theta }_{DT}} =\arg \mathop {\max }\limits_\theta (logp(W)+logP_{\theta}(X|W)-log\sum\limits_wp_{\theta}(X|w)p(w)) θ^DT=argθmax(logp(W)+logPθ(XW)logwpθ(Xw)p(w))
右边第一项logp(W)是常数,可忽略,第二项是ML的目标函数的对数,第三项的形式与第二项有相似之处。
ML训练问题一般使用EM算法来解决的,DT训练多了第三项,同样有Generalized EM算法来求解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值