反模型:一种判别式训练的替代方法
1. 引言
在自动语音识别(ASR)领域,判别式训练(DT)技术已被证明优于基于最大似然(ML)的训练方法。然而,DT技术需要适当的调优,使用了许多启发式方法,通常不收敛,并且最大化训练准则可能无法在未见过的数据上实现最大识别准确率。过去,由于计算能力有限,ASR系统使用复杂度较低的声学模型。从相同数量的训练数据中训练出的较简单模型,DT技术的效果更好。而较复杂的模型对DT设置更敏感,需要更精细的调优才能比ML模型有显著提升。如今,多核计算机架构有足够的计算能力实时运行任何单对角协方差声学模型,借助GPU加速甚至可以运行多个模型或全协方差模型。因此,越来越复杂的隐马尔可夫模型(HMM)被使用,显然,一些更简单、更稳健的DT技术会很有帮助。
本文引入了反模型的概念。其思路是,不使用负统计或梯度方法修改高斯参数以使模型适应非自然(非高斯)形状,而是直接构建反模型,即属于其他HMM状态的数据的模型。这个想法具有通用性,可应用于所有主要的判别式准则,如最大互信息(MMI)、增强MMI、最小分类错误(MCE)和最小电话错误(MPE)。为了清晰起见并适应篇幅限制,本文详细展示了MMI的情况,其他准则的推导类似。
2. 判别式训练
原则上,基于ML的训练是一种仅从正例进行的机器学习方法。与ML不同,判别式方法在训练过程中考虑了类别竞争信息。这些额外信息可能会改善结果,但也会带来额外的计算负担。以下是最常用的判别式准则的简要回顾:
- 最大互信息 - MMI :在MMI情况下,训练算法试图最大化给定模型下正确话语的后验概率:
[F_{MMI}(\lambda) = \sum_{r
超级会员免费看
订阅专栏 解锁全文

3999

被折叠的 条评论
为什么被折叠?



