15、优化中文分词以提升机器翻译性能

最新推荐文章于 2025-11-14 11:06:31 发布

nft7creator

最新推荐文章于 2025-11-14 11:06:31 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理与机器翻译文章标签：中文分词机器翻译 CRF分词器

本文链接：https://blog.youkuaiyun.com/nft7creator/article/details/155011256

自然语言处理与机器翻译专栏收录该内容

79 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

优化中文分词以提升机器翻译性能

1. 引言

在中英机器翻译（MT）中，GALE Rosetta联盟通常使用斯坦福中文分词器，依据中文树库分词标准对中文输入进行自动分词。该分词器是基于特征的条件随机场（CRF）模型，在正式评估中表现出色。然而，在GALE第二阶段评估中发现，尽管CRF分词器在分词评估中F值很高，对未登录词（OOV）的召回率也很好，但在训练和测试时，它并非最有利于提升MT性能。可能的原因是，与基于词典的分词器相比，CRF分词器生成的词汇量较大，但实际情况更为复杂。

通过一系列实验，研究人员为斯坦福CRF分词器引入基于词典的特征，提高了分词的一致性，进而提升了MT性能。同时，由于基于短语的MT中最佳的词粒度未知，研究人员在CRF分词器中引入了一个额外特征，用于调整平均词长，进一步提升MT性能。基于词典的特征使MT训练词典减少了29.5%，MT测试数据的OOV率降低了34.1%，并在测试数据（MT05）上使BLEU值提高了0.38。当调整CRF模型以优化词长从而直接优化MT性能时，发现略短于CTB标准的词长是最优的，可使MT05的BLEU值提高0.52。

2. 实验设置

2.1 中文分词

为直接评估分词性能，研究人员在SIGHAN Bakeoff 2006训练数据（UPUC数据集）上训练每个分词器，然后在测试数据上进行评估。训练数据包含509K个词，测试数据有155K个词，测试数据中未在训练数据中出现的词占比为8.8%。为了解每个分词器对OOV词的处理能力，研究人员将报告每个分词器的F值、词表内（IV）召回率和OOV召回率。