38、自动度量在错误分类及制造流程分析中的应用

自动度量在错误分类及制造流程分析中的应用

自动度量在机器翻译错误分类中的应用

在机器翻译质量评估中,自动度量指标起着关键作用。其中,Translation Edit Rate (TER) 和 CharacTER 是两个重要的指标。

TER 定义为将假设译文(机器翻译结果)修改为与参考译文完全匹配所需的最少编辑操作数,公式如下:
[TER (h, r) = \frac{\min#(I + D + S + \text{shift})}{|r|}]
其中,(r) 是假设译文 (h) 的参考译文,(I) 表示插入,(D) 表示删除,(S) 表示替换,(\text{shift}) 表示词序变化的数量。

CharacTER 是基于字符级别的编辑距离度量,在词级别进行移位编辑的同时计算字符级别的编辑距离。其公式为:
[CharacTER (h, r) = \frac{\min#(\text{shift} + I + D + S)}{|h|}]

为了研究自动机器翻译(MT)指标与错误分类之间的关系,进行了如下实验:
- 实验目标 :探究基于词汇相似度和编辑距离的 MT 指标,哪个能更好地捕捉机器翻译到屈折语(如斯洛伐克语)中出现的错误。
- 数据集 :由从英语(STs)机器翻译到斯洛伐克语(NMTs)的新闻文本组成。数据集的可读性和词汇语法特征如下表所示:
|特征类型|特征名称|NMTs_SK|STs_EN|
| ---- | ---- | ---- | ---- |
|可读性|平均句子长度|17.12034|19.262

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值