机器翻译评估与优化:方法、实验与指标探索
1. 机器翻译优化的基础与问题提出
在机器翻译(MT)领域,利用评估进行优化是提升翻译质量的关键手段。数值优化技术结合自动评估指标(如 BLEU 或 TER)可用于自动化 MT 研究。然而,模型权重空间中的误差表面崎岖不平,存在许多尖锐的山峰、山谷和高原,数值优化只能保证找到局部最优解,最终的最优值取决于搜索的起始点和优化算法的搜索方式。这引发了一系列问题:
- 调优集的选择如何影响在未见测试数据上的性能?
- 基于一个评估指标进行优化如何影响在其他指标上的性能?
- 不同的数值优化算法是否会导致不同的最优解?这些方法对初始搜索点的鲁棒性如何?
- 是否应给予所有训练样本相同的重要性,还是应偏向于改进较差的翻译?
需要注意的是,找到的任何最优解仍由自动指标决定,可能无法反映人类对优化输出的实际感知。
2. 最小错误率训练(MERT)
最小错误率训练(MERT)是一种自动优化模型权重以实现最优性能的方法,通常包括以下三个步骤:
1. 选择一个能够判断特定翻译输出好坏的自动评估指标。
2. 借助该指标在整个 MT 输出上定义一个误差函数。
3. 使用数值优化方法来最小化这个误差函数。
MERT 可以处理 MT 系统的多种输出格式,最常见的策略是使用 n - 最佳假设列表。给定模型权重向量,可以对 n - 最佳列表中每个句子的假设进行重新排序,并为这些权重确定一个新的第一最佳翻译。误差函数由给定权重向量下新的第一最佳假设的指标误差定义。有些 MT 系统可以输出整个翻译格而不是仅 n - 最佳假设,误差函数的定义方式类似。
机器翻译评估与优化方法探析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



