优化中文分词以提升机器翻译性能
1. 引言
在中英机器翻译(MT)中,GALE Rosetta联盟通常使用斯坦福中文分词器,依据中文树库分词标准对中文输入进行自动分词。该分词器是基于特征的条件随机场(CRF)模型,在正式评估中表现出色。然而,在GALE第二阶段评估中发现,尽管CRF分词器在分词评估中F值很高,对未登录词(OOV)的召回率也很好,但在训练和测试时,它并非最有利于提升MT性能。可能的原因是,与基于词典的分词器相比,CRF分词器生成的词汇量较大,但实际情况更为复杂。
通过一系列实验,研究人员为斯坦福CRF分词器引入基于词典的特征,提高了分词的一致性,进而提升了MT性能。同时,由于基于短语的MT中最佳的词粒度未知,研究人员在CRF分词器中引入了一个额外特征,用于调整平均词长,进一步提升MT性能。基于词典的特征使MT训练词典减少了29.5%,MT测试数据的OOV率降低了34.1%,并在测试数据(MT05)上使BLEU值提高了0.38。当调整CRF模型以优化词长从而直接优化MT性能时,发现略短于CTB标准的词长是最优的,可使MT05的BLEU值提高0.52。
2. 实验设置
2.1 中文分词
为直接评估分词性能,研究人员在SIGHAN Bakeoff 2006训练数据(UPUC数据集)上训练每个分词器,然后在测试数据上进行评估。训练数据包含509K个词,测试数据有155K个词,测试数据中未在训练数据中出现的词占比为8.8%。为了解每个分词器对OOV词的处理能力,研究人员将报告每个分词器的F值、词表内(IV)召回率和OOV召回率。
2.2 基于短语的中英MT
为便于比较,研究人员使用了开
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



