bpe分词算法的原理

最新推荐文章于 2025-10-09 19:54:47 发布

转载最新推荐文章于 2025-10-09 19:54:47 发布 · 1.9k 阅读

5 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/gao_summer_cola/article/details/90262076

文章标签：

#自然语言处理

AI 专栏收录该内容

29 篇文章

订阅专栏

概述：

bpe（byte pair encoding），是一种根据字节对进行编码的算法。主要目的是为了数据压缩，算法描述为字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。该算法在论文：https://arxiv.org/abs/1508.07909 Neural Machine Translation of Rare Words with Subword Units详细介绍

训练过程：

对于使用子词作为基本单位进行训练的神经机器翻译模型，训练的第一步就是根据语料生成bpe的code资源，以英文为例，该资源会将训练语料以字符为单位进行拆分，按照字符对进行组合，并对所有组合的结果根据出现的频率进行排序，出现频次越高的排名越靠前，排在第一位的是出现频率最高的子词。如图所示：e </w>为出现频率最高的子词，其中</w>表示这个e是作为单词结尾的字符。训练过程结束，会生成codec文件。如下图所示：