***bpe subword（机器翻译）

最新推荐文章于 2025-06-25 22:30:38 发布

Sarah ฅʕ•̫͡•ʔฅ

最新推荐文章于 2025-06-25 22:30:38 发布

阅读量1.3k

点赞数 1

分类专栏：综合-自然语言处理

综合-自然语言处理专栏收录该内容

35 篇文章

订阅专栏

本文探讨了BPE（Byte Pair Encoding）算法在解决机器翻译中未登录词问题的应用。详细介绍了BPE如何在word-level和char-level下进行训练，形成包含高频词子字符串的dictionary，以及如何将训练集解码对应到dictionary中的item，最终通过wordembedding投入到模型进行训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

个人理解：
bpe subword可以用来解决 “机器翻译” 中，“未登录词”的问题。
所谓“未登录词”，是指“测试集/验证集”中出现但是在“训练集”中没有出现的单词。

原始的“机器翻译”是在word-level下进行训练的。
先用语料库构建dictionary，给出dictionary中每个word的编码。然后，把sentence投入模型进行训练。

有一个疑问：
比如：在“英 -> 中”translation system中，encoder部分每个cell输入的是一个word embedding。那decoder部分每个cell的input部分是decoder上一时刻cell output的value，还是output word的word embedding？
个人感觉，是后者，即 word embedding。即：在机器翻译中，要训练中/英两种语言的 wordembedding。

而，bpe subword是同时在word-level和char-level下进行训练的。
首先，利用bpe形成codec文件，即“最高频词子字符串” 集文件。
然后，利用codec文件，形成dictionary文件。此dictionary中，既有word-level，也有char-level。
第三，将训练集根据 bpe 进行解码，对应到dictionary中的各个item，得到各个item的特征向量。
第四，根据得到的特征向量（即：wordembedding），将其投入到模型，进行训练。（此步过程与传统的机器翻译相同）。

参考博文：
AI Challenger 2018 简记
 bpe分词算法的原理以及在机器翻译中的应用
 一分钟搞懂的算法之BPE算法
 机器翻译 bpe——bytes-pair-encoding以及开源项目subword-nmt快速入门

补充几个用于机器翻译的工具：
1）tensor2tensor
2）Marian