基于字符的神经机器翻译在拼写规范化中的应用比较
1. 评估指标
为了比较不同的策略,采用了以下几种常见的评估指标:
- 字符错误率(CER) :字符编辑操作(插入、替换和删除)的数量,通过最终翻译中的字符数量进行归一化。
- 翻译错误率(TER) :单词编辑操作(插入、替换、删除和交换)的数量,通过最终翻译中的单词数量进行归一化。
- 双语评估替补(BLEU) :修改后的 n - 元语法精度的几何平均值,乘以一个简洁因子。
为了确保 BLEU 分数的一致性,使用了 sacreBLEU。此外,为了确定两个系统是否存在统计学上的显著差异,应用了近似随机化测试,重复 10,000 次,p 值设为 0.05。
2. 实验结果
以原始文档与其规范化版本的拼写差异作为基线,同时使用基于字符的统计机器翻译(CBSMT)方法作为第二个基线。实验结果如下表所示:
| 系统 | Entremeses y Comedias(CER [↓]、TER [↓]、BLEU [↑]) | Quijote(CER [↓]、TER [↓]、BLEU [↑]) | Bohori˘c(CER [↓]、TER [↓]、BLEU [↑]) | Gaj(CER [↓]、TER [↓]、BLEU [↑]) |
| — | — | — | — | — |
| 基线 | 8.1、28.0、47.0 | 7.9、19.5、59.4 | 21.7、49.0、18.0 | 3.5、12.3、72.6 |
| CBSMT | 1.3、