***bpe subword(机器翻译)

本文探讨了BPE(Byte Pair Encoding)算法在解决机器翻译中未登录词问题的应用。详细介绍了BPE如何在word-level和char-level下进行训练,形成包含高频词子字符串的dictionary,以及如何将训练集解码对应到dictionary中的item,最终通过wordembedding投入到模型进行训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

个人理解:
bpe subword可以用来解决 “机器翻译” 中,“未登录词”的问题。
所谓“未登录词”,是指“测试集/验证集”中出现 但是 在“训练集”中没有出现的 单词。

原始的“机器翻译”是在word-level下进行训练的。
先用语料库构建dictionary,给出dictionary中每个word的编码。然后,把sentence投入模型进行训练。

有一个疑问:
比如:在“英 -> 中”translation system中,encoder部分每个cell输入的是一个word embedding。那decoder部分每个cell的input部分是decoder上一时刻cell output的value,还是output word的word embedding?
个人感觉,是后者,即 word embedding。即:在 机器翻译 中,要训练 中/英 两种语言的 wordembedding。

而,bpe subword是同时在word-level和char-level下进行训练的。
首先,利用bpe形成codec文件,即“最高频词子字符串” 集 文件。
然后,利用codec文件,形成dictionary文件。此dictionary中,既有word-level,也有char-level。
第三,将训练集 根据 bpe 进行解码,对应到dictionary中的各个item,得到 各个item的 特征向量。
第四,根据得到的 特征向量(即:wordembedding),将其投入到 模型,进行训练。(此步过程 与 传统的 机器翻译 相同)。

参考博文:
AI Challenger 2018 简记
bpe分词算法的原理以及在机器翻译中的应用
一分钟搞懂的算法之BPE算法
机器翻译 bpe——bytes-pair-encoding以及开源项目subword-nmt快速入门

补充几个用于 机器翻译 的工具:
1)tensor2tensor
2)Marian

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值