基于超图的统计机器翻译判别式重排序方法
1. 引言
判别式训练在统计机器翻译(SMT)任务中有着广泛的应用,涵盖了小规模场景(即在少量生成模型中寻找最优权重)和大规模场景(即为数千或数百万个特征训练最优权重)。本文主要聚焦于大规模判别式训练。
在小规模场景下,最小错误率训练(Och 等,2003)已成为 SMT 系统的事实上的标准。此外,Smith 和 Eisner(2006)提出了退火最小风险方法,Zens 等(2007)对不同训练准则进行了系统的实验比较,Shen 等(2004)使用受感知机启发的算法来调整数十个特征的权重,Chiang 等(2008)使用在线最大间隔方法为分层系统调整数十个语法特征。
然而,SMT 的大规模判别式训练并非易事,主要原因有两个。其一,学习判别式模型通常需要运行迭代训练算法,这可能要求在每次迭代时对训练数据进行解码,而解码过程的计算成本极高。例如,单个句子的解码往往需要数秒的 CPU 时间,而用于判别式训练的平行语料库通常包含数百万个句子对,因此对训练数据进行一次解码可能需要数十个 CPU 天。其二,提高机器翻译性能所需的特征数量极其庞大,仅从训练双语语料中可提取的短语对数量就可达数千万。
为解决这些问题,以往的方法主要采用了以下几种策略:n - 最佳近似(如 Watanabe 等,2007)、计算成本较低的基线系统(如 Liang 等,2006a 中假设的单调翻译系统)或小规模设置(如 Blunsom 等,2008 仅使用少于 15 个单词的句子)。
本文提出了一种可扩展的判别式重排序框架,该框架在超图上对假设进行判别式重排序,而非在 n - 最佳列表上。具体而言,对于每个句子,使用基线 SMT 系统生成
超级会员免费看
订阅专栏 解锁全文
2612

被折叠的 条评论
为什么被折叠?



