机器翻译中的对偶学习方法
1. 对偶重建原理
在机器翻译等领域中,对偶重建原理起着重要作用。如果两个对偶任务的模型是完美的,那么原始输入应该能通过这两个模型进行重建。具体来说,存在以下关系:
- (x = g(f (x)))
- (y = f (g(y)))
基于此,我们可以通过最小化重建误差来改进这两个模型,即:
- (\min_{f,g} |(x, g(f (x)))|)
- (\min_{f,g} |(y, f (g(y)))|)
这就是所谓的确定性对偶重建原理。
而在机器翻译中,神经网络模型通常会将源句子翻译成目标语言的多个候选句子,且每个候选句子有不同的概率。因此,我们最大化重建概率,这相当于最小化对偶重建的负对数似然:
- (\min_{f,g} ℓ(x; f, g) = \min_{f,g} -\log P(x|f (x); g))
- (\min_{f,g} ℓ(y; f, g) = \min_{f,g} -\log P(y|g(y); f))
这被称为概率性对偶重建原理。
2. 对偶半监督学习(DualNMT)
DualNMT 是一种在半监督环境下进行机器翻译对偶学习的算法,它同时使用有标签数据(人工标注的平行句子)和无标签数据(源语言和目标语言的单语句子)。
2.1 基本思想
考虑两个单语语料库 (M_X) 和 (M_Y),分别包含语言 (X) 和 (Y) 的句子,这两个语料库不一定相互对齐,甚至可能没有主题关系。假设我们有两个(弱)翻译模型,能够在 (X) 和 (Y) 之间进行互译。DualN
超级会员免费看
订阅专栏 解锁全文
39

被折叠的 条评论
为什么被折叠?



