文章将介绍在机器翻译时需要使用到的数据预处理方法,包括tokenize、truecase、bpe等等,好的预处理方法才能提升机器翻译的质量。下文会以en-de双语为例进行讲解。
Moses
这是Moses的github地址,它是一个统计机器翻译模型,我们主要使用里面的perl脚本进行数据预处理。所以确保电脑上已经安装配置好了perl(ubuntu自带)。
Normalize punctuation
其实我也不太懂这个操作,规范化标点?
perl dir_name/mosesdecoder/scripts/tokenizer/normalize-punctuation.perl -l en < data/train.en > data/train.norm.en
其中-l en
是选择语言,同样例如德语:de等等。同样的操作应用于校验集和测试集。
Tokenizer
分词,同样对校验集和测试集做同样的操作。
perl dir_name/mosesdecoder/scripts/tokenizer/tokenizer.perl -a -l en < data/train.n