15、优化中文分词以提升机器翻译性能

优化中文分词以提升机器翻译性能

1. 引言

在中英机器翻译(MT)中,GALE Rosetta联盟通常使用斯坦福中文分词器,依据中文树库分词标准对中文输入进行自动分词。该分词器是基于特征的条件随机场(CRF)模型,在正式评估中表现出色。然而,在GALE第二阶段评估中发现,尽管CRF分词器在分词评估中F值很高,对未登录词(OOV)的召回率也很好,但在训练和测试时,它并非最有利于提升MT性能。可能的原因是,与基于词典的分词器相比,CRF分词器生成的词汇量较大,但实际情况更为复杂。

通过一系列实验,研究人员为斯坦福CRF分词器引入基于词典的特征,提高了分词的一致性,进而提升了MT性能。同时,由于基于短语的MT中最佳的词粒度未知,研究人员在CRF分词器中引入了一个额外特征,用于调整平均词长,进一步提升MT性能。基于词典的特征使MT训练词典减少了29.5%,MT测试数据的OOV率降低了34.1%,并在测试数据(MT05)上使BLEU值提高了0.38。当调整CRF模型以优化词长从而直接优化MT性能时,发现略短于CTB标准的词长是最优的,可使MT05的BLEU值提高0.52。

2. 实验设置
2.1 中文分词

为直接评估分词性能,研究人员在SIGHAN Bakeoff 2006训练数据(UPUC数据集)上训练每个分词器,然后在测试数据上进行评估。训练数据包含509K个词,测试数据有155K个词,测试数据中未在训练数据中出现的词占比为8.8%。为了解每个分词器对OOV词的处理能力,研究人员将报告每个分词器的F值、词表内(IV)召回率和OOV召回率。

2.2 基于短语的中英MT

为便于比较,研究人员使用了开

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值