统计机器翻译的贝叶斯自适应方法
在许多模式识别问题中,从训练样本中学习需要大量的训练数据和较高的计算成本。而在统计机器翻译(SMT)领域,这种情况尤为常见。有时候,我们只有有限的训练数据和计算资源,但有一个为密切相关任务训练好且有足够训练材料的系统。本文将介绍一种基于贝叶斯学习范式的自适应技术,用于最先进的对数线性模型,该技术已应用于统计机器翻译,并且可以轻松扩展到其他使用对数线性模型的模式识别领域。
1. 引言
在模式识别中,自适应是将一个在特定任务或领域上训练好的系统移植到不同环境中使用的任务。在自然语言处理等领域,从特定领域或任务获取标记训练样本的过程成本很高,但有大量来自类似任务的标记数据。因此,挑战在于如何修改原始模型,以便在只有非常有限的自适应数据的情况下,利用这些大量可用的数据。
在统计机器翻译中,自适应问题非常普遍。我们通常有大量的双语数据,例如来自欧洲议会、加拿大议会或联合国等国际实体的会议记录。但如果我们现在想翻译打印机手册,就需要找到一种方法来利用这些数据。
现代统计机器翻译将机器翻译问题定义为:给定源语言的句子 $x$,找到目标语言中使后验概率最大的等效句子 $\hat{y}$。根据贝叶斯决策规则,可表示为:
$\hat{y} = \arg\max_y Pr(y|x)$
最近,直接对后验概率 $Pr(y|x)$ 进行建模已被广泛采用。为此,不同作者提出使用对数线性模型:
$Pr(y|x) = \frac{\exp \sum_{k=1}^{K} \lambda_k h_k(x, y)}{\sum_{y’} \exp \sum_{k=1}^{K} \lambda_k h_k(x, y’)}$
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



