69、GALE机器翻译评估:从数据到指标的全面解析

GALE机器翻译评估:从数据到指标的全面解析

1. 编辑质量控制与一致性衡量

在机器翻译评估中,编辑的工作质量至关重要。不同编辑在捕捉原文意思时,编辑程度差异较大。有些编辑可能过于激进,而有些则过于宽松。语言数据联盟(LDC)通过抽查编辑表现的质量控制流程,来发现这些趋势。LDC还会比较每个编辑团队的HTER分数与其他版本的分数。当一个团队的HTER分数持续低于或高于相应编辑团队时,就会引起注意并对其工作进行审查。偶尔,编辑会因编辑技巧不佳而受到辅导,但在评估期间从未有编辑被解雇。

为了衡量不同评估之间的编辑一致性,使用了“控制文档”。具体做法是将前一次评估中已编辑的原始翻译插入到当前编辑任务中。当这些文档由不同人员编辑时,就可以测量两次评估之间部分文档的平均差异。重大差异可能源于编辑协议的变化或编辑表现的改变,这会引发调查。编辑差异有助于解释两次评估之间系统性能的变化。例如,如果某一年编辑特别挑剔,可能会在不知不觉中掩盖系统的改进。

2. GALE机器翻译评估概述

DARPA GALE机器翻译评估旨在测试系统将阿拉伯语或中文数据准确、流畅地翻译成英语的能力。官方评估指标是HTER。评估模式要求本地实施,即GALE团队接收评估源数据,利用其分布式翻译系统网络进行本地处理。由于后期编辑的复杂性和成本较高,每个GALE团队只提交一个系统进行评估,代表最佳翻译。对比系统和系统组件不进行评估,实际上评估的是返回的假设翻译的质量。

每次GALE机器翻译评估有两个任务,根据处理的源数据介质不同而区分。数据介质为文本时是翻译任务,为语音或音频文件时是转录任务。

3. 翻译任务

GALE机器翻译的翻译任务要求

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值