Token：BPE基础概念--大模型中主流的分词算法

XiaoJ1234567

于 2025-03-08 15:18:44 发布

阅读量351

点赞数 5

分类专栏： AI-LM 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_48267104/article/details/146116891

版权

AI-LM 专栏收录该内容

16 篇文章

订阅专栏

更多内容：XiaoJ的知识星球

Token：BPE基础概念

1.BPE概念

字节对编码（Byte Pair Encoding，BPE）：

一种基于子词的分词算法，最初用于数据压缩（对字节操作），后调整此算法进行分词（对单个字符操作）。

其分词的核心思想是通过迭代合并高频的相邻符号对，逐步生成更大的子词单元，从而构建一个可动态扩展的词表。

BPE不考虑跨越单词边界的对。因此，该算法可以在从文本中提取的字典上运行，每个单词都按其频率进行加权。

2.算法步骤

初始化：将文本按字符拆分，统计所有字符频次。

例：句子“low lower” → {'l', 'o', 'w', 'e', 'r'}。

迭代合并高频对：统计相邻字符对的频率，合并最高频的对，更新词汇表。

示例流程：
- 初始字符：l o w，l o w e r
- 合并最高频对（如l和o→lo），得到新子词：lo w，lo w e r
- 继续合并（如lo和w→low），最终可能得到子词low和er。

终止条件：达到预设的词汇表大小或合并次数。

3.Python实现

最小的 Python 实现如下：

图 1：从字典 {‘low’， ‘lowest’， ‘newer’， ‘wider’} 中学习的 BPE 合并操作。

在这里插入图片描述

BPE参考：

Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural machine translation of rare words with subword units. In Proc. of ACL.
https://aclanthology.org/P16-1162/
https://aclanthology.org/P16-1162.pdf

声明：资源可能存在第三方来源，若有侵权请联系删除！

博客等级

码龄5年

112
原创

1869
点赞

2503
收藏

2068
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 【大模型基础_毛玉仁】2.2 大语言模型架构概览

下一篇：: Token：SentencePiece论文阅读--大模型中主流的分词算法

最新评论

CLIP：论文阅读 -- 视觉模型
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
InternVL：论文阅读 -- 多模态大模型(视觉语言模型)
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Token：SentencePiece论文阅读--大模型中主流的分词算法
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
OpenMV4 H7 PLUS摄像头模板匹配
爱编程的小翰: 准确说是被占用了，其实蛮大的
OpenMV4 H7 PLUS摄像头模板匹配
2301_81150455: 提问，多大内存的sd卡够我做数字，图形，二维码的模板匹配？

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。