44、统计对齐与机器翻译:原理、挑战与解决方案

统计对齐与机器翻译:原理、挑战与解决方案

1. 句子对齐概述

句子对齐在不同场景下的难度差异较大。在受控翻译环境中,若文本干净,句子对齐并非难事,目前已有多种表现出色的方法。然而,现实世界中的翻译问题、非逐字翻译、同源词少且书写系统不同的语言,都会给句子对齐带来相当大的挑战。

在这类复杂情况下,对词汇项之间关系进行建模的方法更为通用和稳健。信号处理技术和整句对齐技术虽然都是对句子与其翻译之间精细匹配结构的粗略近似,但它们性质有所不同。在选择使用哪种方法时,需要考虑目标语言、所需的准确性以及文本对齐的预期应用。

以下是不同场景下句子对齐的情况总结:
|场景|句子对齐难度|适用方法|
| ---- | ---- | ---- |
|受控翻译环境,干净文本|低|多种方法表现良好|
|现实世界问题,非逐字翻译|高|对词汇项关系建模的方法|
|同源词少,不同书写系统语言|高|对词汇项关系建模的方法|

2. 句子对齐练习
  • 练习13.1 :对于你熟悉的两种语言,找出基于长度的对齐方法基本假设不成立的例子,即一个短句和一个长句互为翻译。若将长度定义为单词数量,更容易找到此类例子。
  • 练习13.2 :Gale和Church(1993)认为用字符数量衡量长度更可取,因为单词数量的方差更大。你是否同意基于单词的长度更具可变性?原因是什么?
  • 练习13.3 :某图实际上是不正确的,它关于主对角线不对称(请验证),但它应该是对称的,为什么?
3. 词对齐

对齐文本的一个常见用途是推导双语词典和术语数据库,通常分两步进行:
1. 将文本对齐扩展到词对齐(除非采用的方法能同时进行词和文本对齐)。
2. 使用频率等标准选择有足够证据的对齐词对,将其纳入双语词典。例如,如果“products”的词对齐只有一个实例,可能不会将其纳入词典,因为在该上下文中“adeptes”意为“users”而非“products”。

词对齐的一种方法是基于关联度量的词对齐。像Church和Gale使用的度量方法,是从双语语料中计算词对齐的有效方式。在许多情况下,尤其是使用高置信度阈值时,这些方法是足够的。然而,关联度量在一个语言中的单词频繁与另一个语言中的多个单词共现的情况下可能会产生误导。例如,在Hansard语料中,“house”常与法语“de Communes”中的两个法语单词共现,导致“house”被错误地翻译为“communes”而非“chambre”。

如果考虑到纯关联度量所忽略的信息,即平均而言,一个给定的单词通常只是另一种语言中一个其他单词的翻译,就可以识别出像“chambre - house”这样的词对。虽然这只适用于对齐文本中的部分单词,但假设一对一对应关系已被证明能给出高精度的结果。

许多结合此类信息的算法是EM算法的实现,或者涉及假设的词对应词典与对齐语料中词标记对齐之间的类似反复迭代。例如Chen(1993)、Brown等人(1990)、Dagan等人、Kupiec和Vogel等人(1996)提出的方法。这些方法大多涉及多次迭代,先从对齐的标记重新计算词对应关系,再根据改进后的词对应关系重新计算标记的对齐。

由于需要多次迭代,这些算法的效率比纯关联方法略低。未来的工作可能会更多地利用现有双语词典中的先验知识,而不是试图从对齐文本中推导所有内容。

以下是词对齐方法的对比:
|方法|优点|缺点|
| ---- | ---- | ---- |
|基于关联度量的词对齐|计算有效,高置信度阈值下足够|可能被多词共现情况误导|
|结合一对一对应信息的算法|结果精度高|需要多次迭代,效率略低|

4. 统计机器翻译 - 噪声信道模型

噪声信道模型在自然语言处理中的一个应用是机器翻译。为了将法语翻译成英语,需要构建一个噪声信道,它接收英语句子“e”,将其转换为法语句子“f”,并将“f”发送给解码器。解码器则确定“f”最可能源自的英语句子。

因此,从法语到英语的翻译需要构建三个组件:语言模型、翻译模型和解码器,同时还需要估计模型的参数,即概率。

graph LR
    A[语言模型] --> B[翻译模型]
    B --> C[解码器]
    B -->|法语句子f| C
    A -->|英语句子e| B
    C -->|最可能的英语句子| 
  • 语言模型 :语言模型给出英语句子的概率$P(e)$。我们已经知道如何基于n - 元语法(第6章)或概率语法(第11章等)构建语言模型,这里假设我们有合适的语言模型。
  • 翻译模型 :以下是一个基于词对齐的简单翻译模型:
    $P(f|e)=\sum_{a} \prod_{j = 1}^{m} t(f_{j}|e_{a_{j}})$
    我们使用Brown等人(1993)的符号:“e”是英语句子,“l”是“e”的单词长度;“f”是法语句子,“m”是“f”的单词长度;$f_{j}$是“f”中的第“j”个单词;$a_{j}$是$f_{j}$在“e”中对齐的位置;$e_{a_{j}}$是“e”中与$f_{j}$对齐的单词;$t(f_{j}|e_{a_{j}})$是翻译概率,即给定英语句子中有$e_{a_{j}}$时,在法语句子中看到$f_{j}$的概率;“Z”是归一化常数。

这个公式的基本思想很直接。$\sum_{a}$对法语单词到英语单词的所有可能对齐进行求和。$a_{j} = 0$表示法语句子中的第“j”个单词与空对齐,即它没有(明显的)翻译。注意,一个英语单词可以与多个法语单词对齐,但每个法语单词最多与一个英语单词对齐。

对于特定的对齐,我们假设各个翻译相互独立,将$t(f_{j}|e_{a_{j}})$翻译概率相乘。例如,要计算$P (Jean loves Marie|John loves Mary)$,对于对齐(“Jean, John”),(“loves, loves”),(“Marie, Mary”),我们将三个对应的翻译概率相乘:$t(Jean|John) \times t(loves|loves) \times t(Marie|Mary)$。

总之,我们通过对所有对齐的概率求和来计算$P(f|e)$。对于每个对齐,我们做两个相当极端的简化假设:每个法语单词恰好由一个英语单词(或空)生成,并且每个法语单词的生成与其他法语单词的生成相互独立。

  • 解码器 :解码器进行类似的最大化操作,由于“f”是固定的,可以从最大化中省略$P(f)$:
    $\hat{e}=\arg\max_{e} P(e)P(f|e)$
    问题在于搜索空间是无限的,因此需要启发式搜索算法。一种可能是使用栈搜索,基本思想是逐步构建英语句子。我们维护一个部分翻译假设的栈,在每个步骤中,用少量单词和对齐扩展这些假设,然后通过丢弃最不可能的扩展假设将栈修剪回原来的大小。该算法不能保证找到最佳翻译,但可以高效实现。

  • 翻译概率估计 :翻译概率使用EM算法进行估计。我们假设拥有一个对齐句子的语料库。一种猜测单词对应关系的方法是计算关联度量,但这会产生许多虚假对应,因为源单词与多个目标单词关联时不会受到惩罚。

EM算法的基本思想是解决信用分配问题。如果源语言中的一个单词与目标语言中的一个单词强对齐,那么它就不能再与目标语言中的其他单词对齐,这避免了双重和三重对齐的情况,以及未对齐单词过多的问题。

我们从翻译概率的随机初始化开始。在E步骤中,计算给定英语句子中有$e_{i}$时,在法语句子中找到$f_{j}$的期望次数:
$c(e_{i},f_{j})=\sum_{(e,f) \in \text{aligned sentences}} \frac{t(f_{j}|e_{i}) \prod_{k = 1}^{m} t(f_{k}|e_{a_{k}})}{\sum_{v} t(f_{j}|v) \prod_{k = 1}^{m} t(f_{k}|e_{a_{k}})}$

在M步骤中,根据这些期望重新估计翻译概率:
$t(f_{j}|e_{i})=\frac{c(e_{i},f_{j})}{\sum_{v} c(e_{i},v)}$

我们描述的是Brown等人(1990)和Brown等人(1993)所描述算法的一个非常简单的版本。在这些模型中,不合理的对齐会受到惩罚。例如,如果英语句子开头的一个单词与法语句子结尾的一个单词对齐,这种对齐位置的扭曲会降低对齐的概率。

此外,还为每个英语单词引入了“生育力”的概念,它告诉我们一个英语单词通常会生成多少个法语单词。在无约束模型中,不区分每个法语单词由不同英语单词生成(这似乎是正常情况)和所有法语单词由一个英语单词生成的情况。生育力的概念使我们能够捕捉到词对齐在大多数情况下倾向于一对一或一对二的趋势(在该模型中,一对零也是一种可能)。例如,在测试模型的语料库中,“farmers”最可能的生育力是2,因为它通常被翻译为两个单词;对于大多数英语单词,最可能的生育力是1,因为它们倾向于被翻译为单个法语单词。

对对齐的Hansard语料库进行的模型评估发现,只有约48%的法语句子被正确解码(或翻译)。错误类型包括不正确的解码和不符合语法的解码。

以下是模型评估中错误示例:
|源句子|正确翻译|错误解码|
| ---- | ---- | ---- |
|Permettez que je donne un example a la chambre.|Let me give the House one example.|Let me give an example in the House.|
|Vous avez besoin de toute l’aide disponible.|You need all the help you can get.|You need of the whole benefits available.|

详细分析揭示了该模型存在的几个问题:
- 生育力不对称 :通常一个法语单词对应多个英语单词,例如“to go”被翻译为“aller à”,但所提出的形式化方法无法捕捉这种普遍对应关系。
- 独立性假设 :在开发概率模型时做出的许多独立性假设并不严格成立,导致模型对短句子有不公平的优势。可以通过将最终似然乘以一个随句子长度增加的常数来解决,但更原则性的解决方案是开发更复杂的模型,避免不适当的独立性假设。
- 对训练数据敏感 :模型和训练数据的小变化(如从Hansard的不同部分获取训练数据)可能导致参数估计的巨大变化。虽然这种差异不一定会对翻译性能产生负面影响,但会引发关于训练文本和应用文本需要多接近才能获得可接受结果的问题。
- 效率问题 :由于解码超过30个单词的句子耗时过长,这些句子不得不从训练集中剔除。

从表面上看,这些是模型的问题,但都与模型中缺乏语言知识有关。例如,句法分析可以使句子的子部分相互关联,而不是用生育力的概念不充分地模拟这种关系。更强的模型可以减少独立性假设,更好地利用训练数据,并减少搜索空间,从而提高解码效率。

其他问题也直接表明系统中缺乏语言知识会导致许多翻译失败:
- 缺乏短语概念 :模型仅关联单个单词,应真正对短语之间的关系进行建模,例如“to go”和“aller à”之间的关系。
- 非局部依赖问题 :像某些局部模型难以捕捉非局部依赖关系。即使翻译模型生成了正确的单词集合,如果存在长距离依赖,语言模型也无法正确组装这些单词(或给重新组装的句子赋予低概率)。后续工作通过对句子进行预处理来减少长距离依赖,例如将“is she a mathematician”转换为“she is a mathematician”。
- 形态学问题 :形态相关的单词被视为独立符号。例如,法语动词“diriger”的39种形式在适当上下文中都可翻译为“to conduct”和“to direct”,但每种形式都需要单独学习。
- 稀疏数据问题 :由于参数仅从训练语料库中估计,没有其他关于单词的信息辅助,稀有单词的估计不可靠。在评估中,包含稀有单词的句子被排除在外,因为难以自动对不常见单词进行良好的特征描述。

综上所述,我们描述的噪声信道模型的主要问题是它包含的自然语言领域知识非常少。所有后续的统计机器翻译工作都致力于构建能够形式化语言内在规律的模型。非语言模型在词对齐方面相当成功,但在机器翻译方面却失败了。

5. 统计机器翻译练习
  • 练习13.4 :模型的任务是根据输入的法语句子找到英语句子。为什么不直接估计$P(e|f)$而不使用语言模型?如果仅依赖$P(e|f)$,不符合语法的法语句子会怎样?在上述依赖$P(e)P(f|e)$的模型中,不符合语法的法语句子会怎样?这些问题的答案见(Brown等人,1993:265)。
  • 练习13.5 :翻译和生育力概率告诉我们要生成哪些单词,但不告诉我们将它们放在哪里。为什么生成的单词至少在大多数情况下会出现在解码句子的正确位置?
  • 练习13.6 :Viterbi翻译定义为最大似然对齐产生的翻译。换句话说,不像方程(13.5)中的翻译模型那样对所有可能的对齐求和。你是否预计Viterbi翻译与根据方程(13.5)得到的最佳翻译会有显著差异?
  • 练习13.7 :构建一个用于EM的小训练示例,并至少计算两次迭代。
  • 练习13.8 :对于机器翻译,n - 元语法模型是短句子的合理语言模型。然而,随着句子长度的增加,将单词排列成符合语法的句子的方式(语义不同)会更多。找出一组(a)4个英语单词,(b)10个英语单词,它们可以组成两个语义不同且符合语法的序列。
6. 进一步阅读
  • 对于统计机器翻译中统计方法的更多背景知识,推荐Knight(1997)的概述文章。
  • 对高效解码算法感兴趣的读者(在统计机器翻译中,这实际上是最困难的问题之一)可以参考Wu、Wang和Waibel以及其他人(1998)的文章。
  • Alshawi等人、Wang和Waibel以及Wu和Wong(1998)试图用统计转移方法取代逐词统计方法。
  • Knight和Chou(1995)提出了一种统计生成算法。
  • 与我们这里介绍的噪声信道模型不同的“经验”方法是基于实例的翻译。在基于实例的翻译中,通过使用对齐语料库中最接近的匹配作为模板来翻译句子。如果在对齐语料库中有完全匹配的句子,只需检索之前的翻译即可;否则,需要适当修改之前的翻译。有关基于实例的机器翻译系统的描述,请参阅Nagao(1984)和Sato(1992)。
  • 词对应关系的一个用途是翻译未知单词。然而,即使从对齐语料库中自动获取词对应关系,任何新文本中仍然会有未知单词,特别是名称。在翻译书写系统不同的语言时,这是一个特别的问题,因为不能直接在翻译中使用未知字符串。Knight和Graehl(1997)展示了如何通过音译系统处理许多专有名称,该系统可以直接从源语言的书写形式推断目标语言中名称的书写形式。由于罗马字母可以相当系统地音译成西里尔字母等字符集,原始的罗马形式通常可以完全恢复。
  • 寻找词对应关系可以看作是机器翻译知识获取这一更普遍问题的一个特例。Knight等人(1995)从更高级的角度探讨了机器翻译中的知识获取问题,超越了我们这里讨论的具体问题。
  • Brown等人和Gale等人描述了如何使用平行文本作为词义消歧的知识源(另见第7.2.2节)。Shemtov(1993)给出了文本对齐作为翻译人员修订产品文献辅助工具的示例。本章开头的对齐示例来自Gale和Church考虑的UBS数据中的一个示例文本,尽管他们没有讨论词级对齐。注意,两种语言的文本实际上都是从德语原文翻译而来的。
  • 网上提供了一个搜索界面,可查找对齐的法英加拿大Hansard句子的示例。
  • “bead”一词由Brown等人引入;“bitext”的概念来自Harris;“bitext map”一词来自Wu(1997a)。基于信号处理的平行文本对齐方法的进一步工作见Wu(1997a)和Chang和Chen(1997)。网上有对多个对齐系统的最新评估,特别有趣的是这些系统在不同平行语料库上的表现差异很大,这些语料库在对齐难度上各不相同。

统计对齐与机器翻译:原理、挑战与解决方案

7. 不同翻译方法的对比

为了更清晰地了解各种翻译方法的特点,下面对基于关联度量的词对齐、结合一对一对应信息的算法以及噪声信道模型这几种方法进行详细对比:
|方法|优点|缺点|适用场景|
| ---- | ---- | ---- | ---- |
|基于关联度量的词对齐|计算有效,在高置信度阈值下能较好地工作|可能被多词共现情况误导,产生虚假对应|对精度要求不是极高,处理简单文本的词对齐|
|结合一对一对应信息的算法|结果精度高,能有效识别正确的词对|需要多次迭代,效率略低|对翻译精度要求较高,有足够计算资源的场景|
|噪声信道模型|理论基础完善,可构建系统的翻译模型|缺乏语言知识,存在多种问题,如对训练数据敏感、效率低等|有大量对齐语料库,需要进行大规模机器翻译的场景|

8. 统计机器翻译的流程总结

下面通过mermaid格式的流程图来总结统计机器翻译的整体流程:

graph LR
    A[准备对齐句子语料库] --> B[初始化翻译概率]
    B --> C[E步骤:计算期望次数]
    C --> D[M步骤:重新估计翻译概率]
    D -->|多次迭代| C
    E[语言模型生成英语句子e] --> F[翻译模型根据e生成法语句子f]
    F --> G[解码器根据f找到最可能的英语句子]
    B -->|提供初始概率| F
    D -->|更新概率| F

从流程图可以看出,统计机器翻译是一个复杂的过程,涉及多个组件和步骤,并且需要不断迭代来优化翻译概率。

9. 解决模型问题的潜在方向

针对噪声信道模型存在的诸多问题,我们可以探讨一些潜在的解决方向:
- 引入语言知识
- 句法分析 :利用句法分析技术,将句子的子部分进行关联,避免仅依靠生育力概念不充分地模拟关系。例如,分析句子的语法结构,确定单词之间的修饰关系、主谓宾关系等,从而更准确地进行翻译。
- 语义理解 :增强对句子语义的理解,不仅仅关注单个单词的翻译。可以使用语义网络、知识图谱等技术,将单词和概念联系起来,提高翻译的准确性。
- 改进模型结构
- 减少独立性假设 :开发更复杂的模型,避免不适当的独立性假设。例如,考虑单词之间的上下文依赖关系,而不是简单地假设每个单词的翻译是独立的。
- 引入新的特征 :除了单词对齐和翻译概率,引入其他特征,如词性、词频、句法结构等,丰富模型的信息来源。
- 优化训练数据
- 增加数据多样性 :使用更广泛、多样化的训练数据,减少对特定训练数据的依赖。可以从不同领域、不同风格的文本中收集数据,提高模型的泛化能力。
- 数据预处理 :对训练数据进行预处理,如去除噪声、归一化等,提高数据的质量。

10. 基于实例的翻译方法详解

基于实例的翻译是一种与噪声信道模型不同的“经验”方法,下面详细介绍其工作流程:
1. 实例匹配 :在对齐语料库中寻找与待翻译句子最接近的匹配句子。可以使用字符串匹配、语义相似度计算等方法进行匹配。
2. 翻译检索 :如果找到完全匹配的句子,直接检索该句子的翻译作为结果。
3. 翻译修改 :如果没有完全匹配的句子,需要对最接近匹配句子的翻译进行适当修改。修改的依据可以是待翻译句子与匹配句子的差异,如单词的替换、语序的调整等。

基于实例的翻译方法的优点是简单直观,能够利用已有的翻译实例,减少翻译错误。但它的缺点是对语料库的依赖较大,如果语料库中没有合适的实例,翻译效果会受到影响。

11. 音译系统在处理专有名称中的应用

在翻译书写系统不同的语言时,专有名称的翻译是一个难题。音译系统可以有效地解决这个问题,其工作原理如下:
1. 规则学习 :通过分析大量的音译实例,学习源语言和目标语言之间的音译规则。例如,罗马字母与西里尔字母之间的音译规则。
2. 形式推断 :根据学习到的规则,直接从源语言中名称的书写形式推断目标语言中名称的书写形式。
3. 结果验证 :对推断出的目标语言名称进行验证,确保其符合目标语言的书写规范和发音习惯。

音译系统的应用可以提高专有名称翻译的准确性和一致性,减少因名称翻译不当而造成的误解。

12. 未来研究展望

统计机器翻译领域虽然已经取得了一定的进展,但仍面临着许多挑战。未来的研究可以从以下几个方面展开:
- 融合多种方法 :将基于关联度量的词对齐、结合一对一对应信息的算法、噪声信道模型以及基于实例的翻译等方法进行融合,发挥各自的优势,提高翻译的准确性和效率。
- 强化语言知识的融入 :进一步加强语言知识在翻译模型中的应用,如引入更深入的句法分析、语义理解和语用知识,使模型能够更好地处理复杂的语言现象。
- 优化训练算法 :研究更高效的训练算法,减少模型对训练数据的依赖,提高模型的泛化能力和稳定性。
- 跨领域应用 :将统计机器翻译技术应用到更多的领域,如医疗、法律、金融等,解决不同领域的翻译需求。

总之,统计机器翻译是一个充满挑战和机遇的领域,未来的研究有望取得更大的突破,为人们的跨语言交流提供更好的支持。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值