自动语音识别中的机器学习技术:判别式训练与提升算法
在自动语音识别领域,为了提高识别的准确性和性能,研究人员探索了多种训练范式和算法。本文将深入介绍判别式训练和提升算法这两种重要的技术,包括它们的原理、实现方法以及在不同场景下的应用。
判别式训练
判别式训练是一种与分类规则直接相关的训练范式,旨在优化类别可分性。目前主要有以下几种方法:
- 最小分类错误(MCE)训练 :通过梯度下降方法直接最小化训练句子错误率的平滑函数。
- 最大互信息(MMI)训练 :目标是最大化声学观测与对应词序列之间的(经验)互信息,公式如下:
[F_{MMI}(\theta) = \sum_{i=1}^{N} \log \frac{p_{\theta}(x_i|y_i)}{\sum_{y} p_{\theta}(x_i|y)p(y)}]
- 最小音素错误(MPE)训练 :最小化正确转录与识别器输出之间的(期望)音素级Levenshtein距离。
判别式训练通过同时降低竞争假设生成观测声学特征的可能性,来优化类别可分性。然而,MMI训练的公式(4)需要在复杂的迭代过程中求解,每次迭代都需要对训练语料进行识别,这使得判别式训练框架非常复杂且耗时。为了简化计算,可以采用“纠正训练”(CT)算法,将分母限制为识别文本,但当训练误差非常低时,CT算法的改进效果有限。
为了克服CT算法的不足,提出了“竞争训练”(RT)算法。RT算法的目标是为小词汇量和孤立词识别任务提供一种判别式训练算法,其实现比基于格的判别式训练方法更简单,性能比CT算法更好。具体步
超级会员免费看
订阅专栏 解锁全文

1030

被折叠的 条评论
为什么被折叠?



