28、从头开始构建分词器与训练模型

最新推荐文章于 2025-10-09 09:57:24 发布

原创最新推荐文章于 2025-10-09 09:57:24 发布 · 56 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#分词器训练 #BPE分词器 #代码模型训练

掌握NLP：Transformers实战指南专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

从头开始构建分词器与训练模型

1. 分词器词汇表分析

初始词汇表大小为 50257。对输入的 Python 代码运行完整流程，使用 BPE 分词器处理后结果如下：

print(tokenizer(python_code).tokens())
['def', 'Ġsay', '_', 'hello', '():', 'Ċ', 'Ġ', 'Ġ', 'Ġ', 'Ġprint', '("',
'Hello', ',', 'ĠWorld', '!"', ')', 'Ġ#', 'ĠPrint', 'Ġit', 'Ċ', 'Ċ', 'say', '_',
'hello', '()', 'Ċ']

可以看到，BPE 分词器保留了大部分单词，但会将缩进的多个空格拆分为几个连续的空格。这是因为该分词器并非专门针对代码进行训练，主要是在连续空格较少的文本上训练的，所以词汇表中没有专门用于缩进的特定标记。这表明分词器模型不太适合该数据集的领域，解决方法是在目标语料库上重新训练分词器。

2. 训练分词器

2.1 训练步骤

重新训练由 Transformers 提供的字节级 BPE 分词器，使其词汇表更适应 Python 代码，具体步骤如下：
1. 指定目标词汇表大小。
2. 准备一个迭代器，为训练分词器模型提供输入字符串列表。
3. 调用 train_new_from_iterator() 方法。

2.2 训练示例

选择约 1 - 2GB 数据，即约 100,

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mango

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

从头开始训练BERT语言模型

herosunly的博客

02-22

1万+

文章目录1. 数据准备1.1 构建语料库1.2 构建字典文件2. 创建预训练数据3. 预训练4. 训练BERT代码链接5. BERT下游任务应用举例5.1 将tf模型转换成pytorch格式5.2 使用simpletransformers进行文本分类 1. 数据准备 1.1 构建语料库如果没有给定语料库文件(如corpus.txt)，则可使用训练集、测试集数据来构建语料库文件，具体代码如下所示(代码文件名为)： filtered_line = set() with open('../../data/

从零开始构建自己的NLP模型

AI天才研究院

08-09

1199

作者：禅与计算机程序设计艺术 1.简介 2020年是NLP领域非常重要的一年。NLP(Natural Language Processing)技术正在成为深度学习和机器学习的基石。近几年，随着英文社交媒体和平台的发展，人们越来越重视语言技巧和表达能力，而这些技能的提升正推动着NLP技术的进步。在本篇文章

参与评论您还未登录，请先登录后发表或查看评论

4. Transformers的模型与分类

hjyai94的博客

11-22

343

介绍transformers包对token的一些操作，以及不同的分词方法。

【大模型实战篇】构建大模型分词器并应用于Transformer库

源泉的小广场

10-22

1871

大模型、分词器、构建分词器、从零构建分词器、tokenizer、BPE、WordPiece、Unigram、实战、Transformer、huggingface、编码器、解码器

训练自己的HF分词器

新缸中之脑

08-28

1204

这篇博文是系列文章的第一部分，我们想使用transformer模型创建产品名称生成器。几个星期以来，我一直在研究 Huggingface 中的不同模型和替代方案，以训练文本生成模型。我们有一份产品清单及其描述，我们的目标是获得产品的名称。我用 Tensorflow 中的 Transformer 模型以及 T5 摘要器做了一些实验。最后，为了深化 Huggingface 转换器的使用，我决定用一种稍微复杂一点的方法解决这个问题，即编码器-解码器模型。

8、从头开始预训练RoBERTa模型

a1b2c3d的博客

08-05

本文介绍了如何从头开始预训练一个名为KantaiBERT的RoBERTa模型，使用康德的哲学文本作为训练数据。涵盖了数据集加载、分词器训练、模型配置、训练流程以及模型应用等关键步骤，旨在为自然语言处理任务提供详细的实践指南。

从零开始构建大语言模型（MEAP）

龙哥盟

04-29

2848

LLM，即大型语言模型，是一种设计用于理解、生成和回应类似人类文本的神经网络。这些模型是在大量文本数据上训练的深度神经网络，有时包括互联网上整个可公开获取文本的大部分内容。"大型"语言模型中的"大"既指模型在参数方面的规模，也指其所训练的庞大数据集。这样的模型通常具有数百亿甚至数百亿个参数，这些参数是网络中的可调权重，在训练过程中进行优化，以预测序列中的下一个词。下一个词的预测是合理的，因为它利用了语言固有的顺序性质来训练模型，使其理解文本中的上下文、结构和关系。

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

Warmer_Sweeter

09-24

1502

点击下方卡片，关注“小白玩转Python”公众号在2021年，OpenAI发布了一篇论文《从自然语言监督中学习可转移的视觉模型》（https://arxiv.org/pdf/2103.00020），提出了CLIP（对比语言图像预训练），这是一个强大的深度学习模型，旨在以统一的方式理解和解释图像和文本。它结合了视觉和语言编码器，将文本描述与视觉内容联系起来。CLIP模型本身不生成图像的描述，但可以用...

如何从零开始训练一个LLM大模型

xzp740813的博客

10-07

1024

从零开始训练一个大型语言模型（LLM）是一个复杂且资源消耗巨大的过程，涉及多个步骤和阶段。

28、从头构建代码生成模型：分词器与模型训练全流程

hp777的博客

10-09

本文详细介绍从零开始构建代码生成模型的全流程，涵盖分词器的重新训练与优化、模型架构选择、GPT模型初始化、高效数据加载器实现以及完整的训练与评估循环。针对代码数据特点，解决了原BPE分词器对缩进处理不佳的问题，并通过在大规模代码语料上训练新分词器提升效果。选用因果语言建模任务和GPT系列架构实现代码自动补全功能，最终完成模型训练、评估与性能分析，提供可复用的技术路径和优化建议。

bert分词器-手搓tranform模型

04-24

构建分词器的过程通常涉及以下步骤：首先收集大量文本数据，然后对这些数据进行预处理，比如去除标点符号、将文本转换为小写等。接下来，使用一种算法（如Byte Pair Encoding，BPE）来构建词汇表，这个算法能够迭代...

28、代码预训练与分词器构建全解析

app77的博客

09-23

本文深入解析了代码预训练与分词器构建的完整流程。从数据集准备与远程加载，到预训练目标的选择——包括因果语言建模、掩码语言建模和序列到序列训练，详细阐述了不同任务对应的模型架构与应用场景。文章重点探讨了为何需为特定数据集从头训练分词器，并系统讲解了分词器的四大处理步骤：归一化、预分词、分词器模型与后处理。针对Python代码特性，比较了使用内置tokenize模块与GPT-2字节级分词器的优劣，揭示了字节对编码（BPE）在处理Unicode和控制字符时的技术细节。最后提供了实践步骤、性能评估方法及未来发展方向

布线问题分支限界算法-下载即用.zip

01-01

下载方式：https://pan.quark.cn/s/a4b39357ea24 布线问题（分支限界算法）是计算机科学和电子工程领域中一个广为人知的议题，它主要探讨如何在印刷电路板上定位两个节点间最短的连接路径。在这一议题中，电路板被构建为一个包含 n×m 个方格的矩阵，每个方格能够被界定为可通行或不可通行，其核心任务是定位从初始点到最终点的最短路径。分支限界算法是处理布线问题的一种常用策略。该算法与回溯法有相似之处，但存在差异，分支限界法仅需获取满足约束条件的一个最优路径，并按照广度优先或最小成本优先的原则来探索解空间树。树 T 被构建为子集树或排列树，在探索过程中，每个节点仅被赋予一次成为扩展节点的机会，且会一次性生成其全部子节点。针对布线问题的解决，队列式分支限界法可以被采用。从起始位置 a 出发，将其设定为首个扩展节点，并将与该扩展节点相邻且可通行的方格加入至活跃节点队列中，将这些方格标记为 1，即从起始方格 a 到这些方格的距离为 1。随后，从活跃节点队列中提取队首节点作为下一个扩展节点，并将与当前扩展节点相邻且未标记的方格标记为 2，随后将这些方格存入活跃节点队列。这一过程将持续进行，直至算法探测到目标方格 b 或活跃节点队列为空。在实现上述算法时，必须定义一个类 Position 来表征电路板上方格的位置，其成员 row 和 col 分别指示方格所在的行和列。在方格位置上，布线能够沿右、下、左、上四个方向展开。这四个方向的移动分别被记为 0、1、2、3。下述表格中，offset[i].row 和 offset[i].col（i=0,1,2,3）分别提供了沿这四个方向前进 1 步相对于当前方格的相对位移。在 Java 编程语言中，可以使用二维数组...

EP1C3T144C8 FPGA开发板设计

01-01

先看效果： https://pan.quark.cn/s/03f8ba0ff118 ### FPGA开发板设计相关知识要点#### 1. FPGA基本概念- **定义**: 现场可编程门阵列（Field Programmable Gate Array, FPGA）属于半定制型集成电路，允许在完成制造后通过编程来设定其内部逻辑及连接配置，从而达成特定的功能实现。- **特性**: - 运行速度快 - 功耗相对较低 - 适用于复杂系统构建 - 可在现场进行重新编程- **应用范畴**: - 通信领域 - 自动控制系统 - 信息处理技术 - 数据加密方案 - 视频处理技术 - 车载电子系统 - 医疗器械设备等#### 2. EP1C3T144C8芯片介绍- **生产商**: Altera Corporation（现归属于Intel公司）- **系列归属**: Cyclone系列- **技术工艺**: 1.5V核心供电电压，采用0.13微米制造工艺- **资源参数**: - 包含2910个逻辑单元（LEs） - 提供高达59904位的嵌入式存储器 - 支持单个PLL（Phase Locked Loop，锁相环） - 最多可支持104个用户I/O接口- **优点**: - 价格经济 - 集成度高 - 片上资源丰富 - 灵活性强#### 3. 硬件电路设计原理##### 3.1 硬件电路整体构造- **构成部分**: - 下载电路: 负责将设计好的程序传送至FPGA中。 - 下载接口: 实现个人计算机与FPGA之间的数据交换。 - FPGA核心部件: EP1C3T144C8芯片。 - 电源电路: 提供必要的电源支持。 - 扩展接口: 用于连接各类传感器或扩展模块。###...

HIT-CSAPP2025大作业报告.doc

最新发布

01-01

HIT-CSAPP2025大作业报告.doc

NTC热敏电阻温度测量技术及线性电路

01-01

下载前必看：https://pan.quark.cn/s/9cf3e6e84d3a ntc-temperature-measurement NTC 热敏电阻温度测量原理、电路设计与代码实现！！！目前只是Test Board版本，后续更新硬件改进后的版本！！！ ntc-temperature-measurement/ ├── 32K闪存增强通用型MCU CH32V005 - 南京沁恒微电子股份有限公司 #Internet快捷方式 CH32V005官网网址 ├── CH32V006DS0.PDF # CH32V006/V005 数据手册 ├── CH32V00XRM.PDF # CH32V00X 应用手册 ├── zhca858a.pdf # TI参考文档：利用 NTC 电路感测温度 ├── Temp Measurement Design.ms14 # 参考TI的设计的电路 ├── 103F3950阻值对照表.doc # NTC电阻手册 ├── 阻值对照温度数据_0.1℃精度.txt ├── NTC/ # MounRiver工程 │ ├── NTC.wvproj # 工程WVPROJ文件 │ └── ......

VC++对话框背景图片设置

01-01

源码来自：https://pan.quark.cn/s/a4b39357ea24 在VC++开发过程中，对话框（CDialog）作为典型的用户界面组件，承担着与用户进行信息交互的重要角色。在VS2008SP1的开发环境中，常常需要满足为对话框配置个性化背景图片的需求，以此来优化用户的操作体验。本案例将系统性地阐述在CDialog框架下如何达成这一功能。首先，需要在资源设计工具中构建一个新的对话框资源。具体操作是在Visual Studio平台中，进入资源视图（Resource View）界面，定位到对话框（Dialog）分支，通过右键选择“插入对话框”（Insert Dialog）选项。完成对话框内控件的布局设计后，对对话框资源进行保存。随后，将着手进行背景图片的载入工作。通常有两种主要的技术路径：1. **运用位图控件（CStatic）**：在对话框界面中嵌入一个CStatic控件，并将其属性设置为BST_OWNERDRAW，从而具备自主控制绘制过程的权限。在对话框的类定义中，需要重写OnPaint()函数，负责调用图片资源并借助CDC对象将其渲染到对话框表面。此外，必须合理处理WM_CTLCOLORSTATIC消息，确保背景图片的展示不会受到其他界面元素的干扰。 ```cppvoid CMyDialog::OnPaint(){ CPaintDC dc(this); // 生成设备上下文对象 CBitmap bitmap; bitmap.LoadBitmap(IDC_BITMAP_BACKGROUND); // 获取背景图片资源 CDC memDC; memDC.CreateCompatibleDC(&dc); CBitmap* pOldBitmap = m...

Docker拉取镜像报错解决[项目源码]

01-01

文章详细介绍了在Docker拉取镜像时遇到的`no such host`错误的解决方法。首先，需要修改`/etc/resolv.conf`文件，注释掉原有的nameserver并添加新的nameserver 8.8.8.8。其次，在`/etc/NetworkManager/NetworkManager.conf`文件的[main]部分添加dns=none配置。最后，重启Docker服务以应用更改。文章还提到，该方法同样适用于解决`connect: network is unreachable`的错误。

Watt Toolkit加速器（steam++加速器）

01-01

Watt Toolkit（原名 Steam++）是一款开源免费、支持 Windows、macOS、Linux、Android、iOS 等多平台的全能游戏工具箱，它以本地反向代理技术为核心，既能定向优化 Steam、Epic、Uplay 等十余款游戏平台的网络环境，解决社区、创意工坊访问卡顿或 - 118 错误等问题，提升游戏下载与浏览速度，又集成了多账号切换、本地加密存储令牌、交易批量确认、游戏成就管理、云存档编辑、自动挂卡、无边框窗口化、自动领取 Epic 周免游戏等丰富实用功能，其代码托管于 GitHub、Gitee，全程无隐藏收费与恶意插件，操作简洁直观，无需复杂配置即可一键启用，是兼顾便捷性与安全性的游戏玩家必备工具。

分词器和bert模型要一起训练吗

09-25

- **训练时机**：通常在模型训练**之前**完成分词器训练（引用5展示了文本预处理和分词器构建流程） - **输出依赖**：分词器输出决定了BERT嵌入层（Embedding Layer）的词汇表大小（`vocab_size`），该参数必须在...