29、深入探索：从分词器训练到模型构建的全流程指南

最新推荐文章于 2025-10-08 10:16:38 发布

吃瓜不吐籽595

最新推荐文章于 2025-10-08 10:16:38 发布

阅读量48

点赞数

CC 4.0 BY-SA版权

分类专栏：解码Transformer：从理论到应用文章标签：分词器训练 BPE分词器模型构建

本文链接：https://blog.youkuaiyun.com/oauth7security/article/details/151097041

解码Transformer：从理论到应用专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入探索：从分词器训练到模型构建的全流程指南

1. 分词器训练的必要性与挑战

在处理Python代码时，我们使用字节对编码（BPE）分词器对代码进行分词。以如下代码为例：

print(tokenizer(python_code).tokens())
['def', 'Ġsay', '_', 'hello', '():', 'Ċ', 'Ġ', 'Ġ', 'Ġ', 
'Ġprint', '("', 
'Hello', ',', 'ĠWorld', '!"', ')', 'Ġ', 'Ġ#', 'ĠPrint', 'Ġit', 
'Ċ', 'Ċ', 
'say', '_', 'hello', '()', 'Ċ']

可以看到，BPE分词器保留了大部分单词，但会将缩进的多个空格拆分为几个连续的空格。这是因为该分词器主要是在文本数据上进行训练，而连续空格在文本中较为罕见，所以在词汇表中没有专门用于缩进的标记。这属于模型与语料库不匹配的情况，当数据集足够大时，解决方案是在目标语料库上重新训练分词器。

2. 重新训练分词器

重新训练Transformers库中的分词器非常简单，只需遵循以下步骤：
1. 指定目标词汇表大小。
2. 准备一个迭代器，用于提供要处理的输入字符串列表，以训练分词器的模型。
3. 调用 train_new_from_iterator 方法。

下面是一个简单的示例，展示了如何重新训练一个字节级BPE分词器：

会员秒杀 ¥9.9 重磅福利

超级会员免费看