机器翻译评估方法全解析
在机器翻译领域,准确评估翻译质量至关重要。评估方法主要分为人工评估和自动/半自动评估两类,下面将详细介绍这些方法。
1. 人工评估之偏好评级法
偏好评级法常被用于系统构建开发工作中的快速近似评估。该方法有两种实施方式:
- 对于单语评判者,会向其呈现一对译文以及对应的参考译文。
- 对于双语评判者,则会提供一对译文和源材料。
评判者需要回答的问题通常是“你更喜欢哪一个译文?”。如果要对同一材料的多个译文进行排序,可以采用以下两种方式:
- 两两偏好判断法:通过多次比较,为多个系统的译文建立排序。
- 整体排序法:将所有译文版本一起呈现给评判者,让其直接进行排序。
在形成性评估中,还可以询问评判者偏好某一译文的原因,但评判者可能无法给出准确答案。
在进行偏好评级时,有几个要点需要注意:
- 评判者:可以是单语或双语评判者,但都需要理解主题内容。单语评判者需要一个或多个高质量的人工参考译文,双语评判者则应提供源语言材料(可替代或补充人工参考译文)。
- 评判质量:应是整体质量,因为在进行偏好判断时,很难要求评判者单独评估语义充足性等特定质量指标。
- 评判方式:可以是完全的两两比较,也可以是让评判者直接对多个译文进行排序。虽然排序可能更繁琐耗时,但能避免两两判断中可能出现的循环比较问题(如A > B,B > C,C > A)。有理由认为两两排序比直接对多个译文排序更可靠,且数据应按排名进行分析。
2. 自动和半自动评估方法概述
由于使用人工判断评估机器翻译输出存在成本高、缺乏可重复性、主观性
超级会员免费看
订阅专栏 解锁全文
5812

被折叠的 条评论
为什么被折叠?



