BPE分词算法
BPE(Byte-Pair Encoding,字节对编码)是一种NLP中常见的分词方法,核心思想是通过“找规律、合并重复”的方式,把经常一起出现的字符或小片段组合起来,逐步构建一个“词汇表”,然后用该词汇表来拆分任何文本。
BPE原理步骤
- 从最小单元开始:最初将文本拆分成最小的单元(比如英文中的单个字母,或中文中的单个汉字)。
- 合并常见组合:在大量文本中,找出最常一起出现的相邻单元对,将它们合并成一个新的单元。
- 重复迭代:不断重复这个合并过程,构建一个词汇表。
- 分词应用:用最终的词汇表将文本拆分成匹配的单元。
例子
假设我们的语料库里单词及词频如下:
"hug":10次
"pug":5次
"pun":12次
"bun":4次
"hugs":5次
步骤1:拆成字符,加结束符
- “hug” → “h u g </w>”
- “pug” → “p u g </w>”
- “pun” → “p u n </w>”
- “bun” → “b u n </w>”
- “hugs” → “h u g s </w>”
初始词汇表:[“b”, “g”, “h”, “n”, “p”, “s”, “u”, “</w>”]
步骤2:数字符对的频率
看看这些单词里,哪些字符对最常见:
- “h u”:15次(10次 from “hug” + 5次 from “hugs”)

最低0.47元/天 解锁文章
898

被折叠的 条评论
为什么被折叠?



