5.4-5.5 Classical Approaches to MT
上一节5.4我们讲了关于Transfer-Based Approaches,这节课我们来介绍另一个叫做Interlingua-Based Translation的翻译方法。
如果将翻译过程比作一个金字塔,那么我们可以得到如图:
上节课所讲的三个过程是比较低端的过程:从分析开始,经过翻译,再到组织语句输出。而这节课将要介绍的Interlingua-Based Translation是直接省略了翻译的过程。我们希望这个方法对于给定语句的分析最后的结果是脱离于语言相关性的一个表达,将这个输出直接转化为对应所需语言的输出就完成了翻译。这就要求分析的抽象度非常高。
那么这个方法有什么优缺点呢:
- 优点是它非常省空间。如果我们想要建立一个在n种语言随意切换的翻译系统,那我们通常需要建立N2N^2N2个规则,但如果使用刚才的方法,只需要建立n个即可。因为它分析的结果是独立于语言存在的,与之前的被分析语句无关的,所以只要输出符合对应语言规则即可。
- 缺点是要做到分析结果独立于语言存在是非常难的。
首先,各国语言分割各个词语的方式不同,德语对于wall有着内墙和外墙的定义分割,但英语没有;日语对于brother有着年长与年幼的区分,但英语没有;西班牙语对于leg有着是否是人的器官的区分,并分成两个词。所以如何分割定义成了一个在各国语言之间翻译的障碍。
也就是说,每次向你的系统加入新的语言,系统就会发现会有新的关于定义的分割方法。而这个情况你要在定义模型时想到符合的解决方法是很困难的。
5.6 A Brief Introduction to Statistical MT
统计语言模型是现今效果较好的语言模型之一,谷歌的机器翻译就是用的这种方法,且在评比中遥遥领先。下面我们就来看一下这种模型:
平行语料库在很多语言之间是可以实现的,比如在英语和法语之间的大量短语都有平行语料的数据。所以统计语言模型的思想就是应用平行语料库作为训练集,然后训练出机器翻译的模型。
最早应用这个方法的公司是IBM,它将Canadian Hansards语料库用于训练法语翻译成英语的机器翻译并取得了成效。
接着谷歌也应用了统计语言模型最后在众多机器翻译中脱颖而出。
但这个思想的提出却很早,可以追溯到1949年:
统计语言模型最早是应用的噪声信道模型完成的:
噪声信道模型假定,源语言中的句子f(信宿)是由目标语言中的句子e(信源)经过含有噪声的信道编码后得到的。那么,如果已知了信宿f和信道的性质,我们可以得到信源产生信宿的概率,即p(e|f)。而寻找最佳的翻译结果{\tilde {e}}也就等同于寻找:
e~=argmaxe∈e∗p(e∣f)\tilde {e}=\arg \max _{
{e\in e^{*}}}p(e|f)e~=arg