28、从零基础开始：训练代码生成模型的全流程指南

zero1

于 2025-10-02 10:46:00 发布

阅读量38

点赞数

CC 4.0 BY-SA版权

分类专栏：解密Transformer：从理论到实践文章标签：代码生成模型分词器训练 BPE

本文链接：https://blog.youkuaiyun.com/zero1/article/details/152595833

解密Transformer：从理论到实践专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

从零基础开始：训练代码生成模型的全流程指南

1. 词汇表与分词器问题

初始词汇表大小为 50257。对输入的 Python 代码运行完整流程后，BPE 分词器输出如下：

print(tokenizer(python_code).tokens())
['def', 'Ġsay', '_', 'hello', '():', 'Ċ', 'Ġ', 'Ġ', 'Ġ', 'Ġprint', '("',
'Hello', ',', 'ĠWorld', '!"', ')', 'Ġ#', 'ĠPrint', 'Ġit', 'Ċ', 'Ċ', 'say', '_',
'hello', '()', 'Ċ']

可以看到，BPE 分词器保留了大部分单词，但会将缩进的多个空格拆分为多个连续空格。这是因为该分词器主要在连续空格罕见的文本上训练，而非专门针对代码，因此词汇表中没有用于缩进的特定标记。这表明分词器模型不太适合该数据集领域，解决方案是在目标语料库上重新训练分词器。

2. 训练分词器

重新训练字节级 BPE 分词器，使其词汇表更适应 Python 代码。步骤如下：
1. 指定目标词汇表大小。
2. 准备一个迭代器，为训练分词器模型提供输入字符串列表。
3. 调用 train_new_from_iterator() 方法。

与深度学习模型不同，分词器训练主要是提取主要统计信息，即学习语料库中最频繁的字母组合。因此，不一定要在非常大的语料库上训练，语料库只需能代表领域特征且足够大，以便分词器提取有统计意义

会员秒杀 ¥9.9 重磅福利

超级会员免费看