因子化翻译模型:原理、训练与应用
1. 引言
基于短语的翻译模型为统计机器翻译奠定了坚实基础,因其对训练数据的假设较少。然而,诸多翻译问题,特别是形态处理和词序调整,根源在于这些模型未能充分处理语言特性。将语言知识融入基于短语的翻译模型是一个重要的研究方向。
有一个有前景的方向是认识到语言本质上是递归的,因此翻译模型也应采用递归(或分层)规则应用的形式。而本文关注的另一个方向是,许多翻译问题需要超越词元序列(或树结构)概念的语言词汇表。单词的多种属性,如词性、形态特征、句法或语义行为,对翻译可能都很重要。
为了将这些多样化的单词属性融入基于短语的翻译模型,我们提议将单词表示为因子向量,而非有限词汇表中的单纯词元。接下来将详细介绍因子化翻译模型,并展示其如何解决词序调整、丰富形态、句法一致性等翻译难题。
2. 相关工作
在将语言信息融入基于短语的统计机器翻译模型方面,已有大量的前期工作。以下是几个主要方面的介绍:
2.1 形态处理
- 屈折语的统计模型 :为屈折语开发了作为统计机器翻译系统一部分的形态统计模型。
- 形态特征替换 :可以用伪词替换形态特征。
- 形态标注 :对于小训练语料库,形态标注特别有用。
- 词缀拆分 :对于高度黏着的语言,如阿拉伯语,主要关注用各种方案拆分词缀。
- 未知词处理 :提出了多种处理未知词的方法,如基
超级会员免费看
订阅专栏 解锁全文

1965

被折叠的 条评论
为什么被折叠?



