NLP分词notes

原创已于 2025-07-22 19:24:26 修改 · 691 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能

于 2025-07-12 12:45:46 首次发布

BPE

贪心提取所有出现频率高的成为词。

BPE的训练流程

1.初始化：将所有单个字符作为初始词汇表的元素。
2.迭代合并：

统计语料中所有相邻符号对（包括字符和合并后的符号）的出现频率。
找到出现频率最高的符号对，将其合并为新的符号，并添加到词汇表中。
在语料中用新符号替换所有该符号对的出现。

3.重复迭代，直到达到预设的词汇表大小或到达合并次数。

输入：语料D，预设的合并次数N
初始化：词汇表V为语料中的所有字符
for i from 1 to N do:
    统计语料中所有相邻符号对的频率，得到列表P
    选择频率最高的符号对(s1, s2) ∈ P
    合并符号对s1、s2为新符号s_new
    将s_new添加到词汇表V
    用s_new替换语料D中所有的s1 s2
end for
输出：词汇表V

WordPiece

WordPiece目标是在固定大小的词表预算下，选择一组子词单元，使整个训练语料在当前词表下的分词似然最大化。它的核心思想是：初始词汇表包含所有单个字符，通过迭代合并带来最大似然增益的高频字符对，逐步扩展为更长的子词单元。

在 WordPiece 的建模假设中，一个单词的概率是其分解后子词序列概率的乘积：
$P(\text{word}) = \prod_{i=1}^{n} P(\text{token}_i)$

因此，WordPiece 的训练目标是最大化整个训练语料的对数似然：
$\max \sum_{\text{words}} \log P(\text{word})$

WordPiece 的训练流程

1.初始化词汇表：从所有单个字符开始，非开头的token会加上前缀/后缀（例如 ##ing、##ed）。
2.计算相邻字符对频率：统计整个训练语料中所有相邻字符对的出现频率。
3. 迭代合并：在每次迭代中，计算增益 $G ain = l o g l ik e l ih oo d (n e w) - l o g l ik e l ih oo d (o l d)$ ，选择能够使语言模型对数似然增益最大的字符对进行合并，并更新词表。重复此过程直到词汇表达到预设大小。
4. 得到最终词汇表

输入：语料D，预设的词汇表大小N
初始化：词汇表V为所有字符
while |V| < N do:
    初始化增益字典G = {}
    for 语料D中的每个可能的子词s（由现有词汇表中的符号组合而成）:
        计算将s添加到词汇表V后，语料D的似然增益ΔL
        将(s, ΔL)加入G
    从G中选择ΔL最大的子词s_max
    将s_max添加到词汇表V
    更新模型参数（如概率）
end while
输出：词汇表V

eg.给定初始词表 ["a", "b", "c", "w"] 和词汇 v = ["abc", "abw"]，各字符的概率分布如下：

字符概率分布： $\frac{1}{3}$ , $\frac{1}{6}$

假如合并ab，合并后词表更新为 ["ab", "c", "w"]，重新归一化概率 $\frac{1}{2},p(c) = p(w) = \frac{1}{4}$

词汇序列概率计算： $\times p(c) + p(ab) \times p(w) = \frac{1}{4}$

原始未合并概率 $p(old\ v) =p(a) \times p(b) \times p(c) + p(a) \times p(b) \times p(w) = \frac{1}{27}$
$p(old\ v) = \frac{1}{4} - \frac{1}{27} = \frac{23}{108}$

GPT写的一个demo

from tokenizers import Tokenizer, models, trainers, pre_tokenizers
# #BPE
# from tokenizers import models, trainers
# tokenizer = Tokenizer(models.BPE())
# trainer = trainers.BpeTrainer(vocab_size=30, special_tokens=["[UNK]"])

# 1️⃣ 定义模型类型：WordPiece
tokenizer = Tokenizer(models.WordPiece(unk_token="[UNK]"))

# 2️⃣ 定义预分词规则
tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()

# 3️⃣ 定义训练器
trainer = trainers.WordPieceTrainer(
    vocab_size=100,
    special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"]
)

# 4️⃣ 训练文本
corpus = [
    "the quick brown fox jumps over the lazy dog",
    "the quick brown dog jumps over the lazy fox",
    "i love natural language processing",
    "wordpiece helps with unknown words"
]

# 5️⃣ 训练
tokenizer.train_from_iterator(corpus, trainer)

# 6️⃣ 测试编码
output = tokenizer.encode("the quick brown fox")
print("Tokens:", output.tokens)
print("IDs:", output.ids)

# 7️⃣ 保存分词器
tokenizer.save("wordpiece-tokenizer.json")