构建自己模型的Tokenizer

最新推荐文章于 2025-05-30 09:13:28 发布

JHW5981

最新推荐文章于 2025-05-30 09:13:28 发布

阅读量859

点赞数 4

CC 4.0 BY-SA版权

文章标签： python 自然语言处理

本文链接：https://blog.youkuaiyun.com/Edward__J/article/details/142462073

今天阅读别人写的开源代码，学到了如何编写自己的Tokenizer，自己添加special_token，自己定义special_token的token_id。（仅适用于T5类型，使用SentencePiece模型训练出来的分词方法，对于Bert这种WordPiece的分词，不适用）

首先，我们有这样一个任务，需要有一个在基本此表的基础上，添加特殊令牌"<loc_*>"其中*从0-100。然后token_id就往后排，比如原来的此表有100个，最大的id是99，现在加了100个特殊令牌之后，此表变成了200个，"<loc_0>"的id是100，...，"<loc_99>"的id是199这样。

要自定义Tokenizer肯定是要有个父类的，如果用PretrainedTokenizer的话，里面的方法比如，vocab_size，get_vocab, _tokenize，_convert_token_to_id，_convert_id_to_token等几个关键的方法是需要根据自己的要求自定义的，其他的Tokenizer其实也是这么重写然后实现的，比如T5Tokenizer，可以去借鉴他们的写法然后改成自己的。

因为我们的任务比较简单，我们可以继承T5Tokenizer，只重写里面的部分方法。

首先，导入必要的库：

from transformers import T5Tokenizer
import sentencepiece as spm

下载所需要的预训练好的分词模型，可以去huggingface上下载，比如去https://huggingface.co/google-t5/t5-small/tree/main，里面有个叫spiece.mode

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JHW5981

关注关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

GPT从零构建：训练自己的Tokenizer

golfxiao的专栏

01-17

1625

这一点非常重要，因为每个utf-8字符都是由一到多个字节组成的，将这个长度为256的编码表中的字节进行组合，理论上就能对世界上所有语言中的字符进行编码，并且还不会出现。

从零开始构建自己的GPT模型

AI天才研究院

01-17

1479

近年来，GPT（Generative Pre-trained Transformer）模型在自然语言处理领域取得了突破性进展。从GPT-1到GPT-4，这些模型展现出了惊人的语言理解和生成能力，引发了人工智能领域的革命。本文将详细介绍如何从零开始构建自己的GPT模型，涵盖从理论基础到实际实现的全过程。GPT模型的核心算法基于Transformer架构的解码器部分。它通过自回归方式生成文本，即根据之前生成的内容预测下一个词。输入编码：将输入文本转换为向量表示自注意力计算：捕捉输入序列中的长距离依赖关系。

参与评论您还未登录，请先登录后发表或查看评论

手动实现一个迷你Llama：使用SentencePiece实现自己的tokenizer

2302_80236633的博客

04-02

911

用于加载和使用训练好的 SentencePiece 模型，执行分词（Tokenization）、编码（Encoding）和解码（Decoding）等操作。它是 SentencePiece 模型的主要接口，提供了丰富的功能来处理文本数据。通过 num_shards 参数控制处理的分片数量，可以加快训练速度，减少每次加载到内存中的数据量，提高训练效率。tiny.txt 是一个临时文件，用于将多个分片中的文本合并成一个文件，便于 SentencePiece 训练。，广泛应用于自然语言处理（NLP）任务中。

Marked.js 高级扩展指南：自定义渲染器与解析器

最新发布

gitblog_00588的博客

05-30

1118

Marked.js 高级扩展指南：自定义渲染器与解析器什么是 Marked.js 扩展 Marked.js 是一个高效的 Markdown 解析器，其设计遵循单一职责和开闭原则，使得开发者能够轻松扩展其功能。通过扩展机制，你可以自定义 Markdown 的解析和渲染行为，实现特殊语法支持或修改默认输出格式。扩展基础：marked.use() 方法 marked.use() 是扩展 Marked...

【自己创建分词器tokenizer】（3）——Unigram tokenizer

qq_46634315的博客

08-12

913

我们完成了这个分词器！我们可以像之前一样保存分词器，并且如果想要在Transformers中使用它，可以将其包装在PreTrainedTokenizerFast或XLNetTokenizerFast中。其他部分，比如保存与加载等，和之前WordPiece tokenizer是一样的，本文没有赘述。end。

【深度学习技术系列】大模型基础组件 - Tokenizer

小田的专栏

03-10

4304

文章目录1. 前言2. 示例3. 对比4. 子词切分4.1 字节对编码（Byte-Pair Encoding, BPE）4.1.1 训练阶段4.1.2 推理阶段4.1.3 BBPE4.2 WordPiece4.2.1 训练阶段4.2.2 推理阶段4.3 Unigram4.3.1 训练阶段4.3.2 推理阶段4.4 SentencePiece4.4.1 byte回退5. 语法5.1 英文文本向量化5.2 对中文文本向量化参考 1. 前言 Tokenizer是一个用于向量化文本，将文本转换为序列的类。计算机在

分词器tokenizer属性与特殊字符详解

m0_59792363的博客

07-17

3813

----------------------------------- 如何添加特殊字符避免被拆分?---------------------------------tokenizer.convert_ids_to_tokens(50256) ------ # 50256对应的字符。---------------------------------- 验证 ------------------------------------

第1章训练自己的Tokenizer，构建专属词表（非必须，按需进行）

Starry的个人学习分享

06-18

494

如果我们觉得重新训练一个自己的Tokenizer很麻烦，没有必要性，但是又想加入一些特殊词汇在词表中。更具体的，如果使用 transformers model，可以使用 resize_token_embeddings 方法进行 resize，详情见。想要自己训练一个自己专属的Tokenizer有多种方法，使用sentencepiece工具是一种非常便捷、高效的方法。以下是一个简单用Transformers加载bert模型后进行resize的示例代码。

大模型中的Tokenizer

微凉的博客

02-17

402

其核心思想是通过迭代合并高频出现的相邻字符对（或子词），逐步构建词汇表。大型语言模型（LLMs）的分词（Tokenization）方法直接影响模型对文本的理解和生成能力。SentencePiece 是一个强大的子词分词库，支持 BPE 和 Unigram 算法，能够直接处理原始文本（无需预分词），适合多语言任务。工作原理: WordPiece从单个字符开始，迭代地合并score最高的字符对或子词对，以构建新的更长的子词，直到达到指定的词汇表大小。合并高频对：将最高频的字符对合并为一个新的子词，加入词汇表。

Tokenizer那些事儿

PennyYu123的博客

07-20

882

BPE词表相关知识

【Pytorch】添加自己的special_token

nghhfgh的博客

03-28

1681

起因是我想对我的label利用Bert进行encode，但我发现在分词的时候，由于label的特殊性，总会被分成“##401”、“.”、“7”，而不是“401.7”，所以查了一些资料，搞出来了。今天天气好好~☀。

Python-Python中速度最快最完整可自定义的tokenizer

08-10

Python中速度最快，最完整/可自定义的tokenizer

【大模型】如何为tokenizer添加额外的tokens

酒酿小圆子呀～

12-05

2266

为了为tokenizer 指定额外的tokens，可以使用tokenizer 的或add_tokens方法。该方法允许我们向tokenizator添加自定义的tokens，以便在文本处理中使用。

提示学习，transformers/bert中处理模板 additional-special-tokens

znsoft的专栏

05-18

856

我们在提示学习或其它方式中经常需要对模板中的占位符，如 This is a demon, [X], it was a [MASK] 中的[X]进行替换并需要在随后的处理中取出它对应的向量。此时，我们需要知道[X]所在的postion, 即偏移才可以正常处理。在transformers中，这个位置真的不好推测，需要用transformers的tokenizer api进行处理。怎么办？看代码： temp 为模板，比如 it was a [X] news. labels是要替换的具体词..

【自己创建分词器tokenizer】（1）——WordPiece tokenizer

qq_46634315的博客

08-12

1681

【自己创建分词器】WordPiece tokenizer

BERT使用过程中添加special tokens

weixin_43301333的博客

12-23

9518

transformers库的使用【二】tokenizer的使用，模型的保存自定义

热门推荐

一个小菜鸟的博客

04-01

1万+

使用标记器（tokenizer）在之前提到过，标记器（tokenizer）是用来对文本进行预处理的一个工具。首先，标记器会把输入的文档进行分割，将一个句子分成单个的word（或者词语的一部分，或者是标点符号）这些进行分割以后的到的单个的word被称为tokens。第二步，标记器会把这些得到的单个的词tokens转换成为数字，经过转换成数字之后，我们就可以把它们送入到模型当中。为了实现这种能把tokens转换成数字的功能，标记器拥有一个词表，这个词汇表是在我们进行实例化并指明模型的时候下载

NLP笔记

txdyhs的博客

02-24

499

文本歧义及其清理包括数据再加工、文本清理、特定预处理。标志化处理、词干提取或词形还原、停用词移除 csv文件 json文件语句分离器 inputstring='This is an example sent. The sentence splitter will split ' \ 'on sent markers. Ohh really!!' from n...

记录一下使用GPT-2 tokenizer 的过程中一个disgusting的问题 (eos_token_id 是None，怎么手动设置eos_token_id)

qq_21366993的博客

05-22

627

eos_token_id 是None，怎么手动设置eos_token_id

大模型tokenizer

05-28

<think>好的，我现在需要回答用户关于大模型中tokenizer的实现方式及其与参数隔离训练的关系的问题。首先，我需要回忆一下之前用户的问题和我的回答，以及用户现在提供的引用内容。用户之前的问题是关于大模型参数隔离训练的实现方式，我详细介绍了独立参数服务器架构、适配器层、LoRA、掩码梯度路由等技术。现在用户的新问题是关于tokenizer的实现以及它与参数隔离训练的关系，同时用户提供了三个引用，涉及多模态融合、Time-LLM的结构以及加载GPT模型的代码示例。首先，我需要明确tokenizer的基本概念和实现方式。Tokenizer负责将原始文本转换为模型可以处理的tokenID序列。常见的实现包括基于词、子词（如BPE、WordPiece）或字符的分词方法。例如，GPT使用的是BPE，而BERT使用WordPiece。接下来，考虑tokenizer的实现步骤。可能需要包括分词算法的选择、词汇表的构建、特殊token的处理（如[CLS]、[SEP]）、以及处理不同语言或模态时的适配。例如，多模态模型可能需要对齐不同模态的数据，如引用[1]提到的数据预处理步骤，包括对齐和格式转换，这可能影响tokenizer的设计。然后，分析tokenizer与参数隔离训练的关系。参数隔离训练主要涉及模型参数的划分和更新控制，而tokenizer通常是预处理步骤，不涉及模型参数。不过，可能存在一些关联点：比如在多模态或多任务场景中，不同模态或任务可能需要不同的tokenizer处理，而参数隔离训练可能需要处理这些不同的输入。例如，引用[1]提到多模态融合使用共享参数减少过拟合，这可能与参数隔离中的共享-私有结构有关。此外，如果不同任务使用不同的分词策略，参数隔离可能需要调整不同部分的模型参数，如适配器层或LoRA模块，以适应不同的token分布。另外，引用[2]提到的Time-LLM中的跨模态适应和对齐，可能需要tokenizer处理时间序列数据，将其转换为LLM可理解的token，这里可能涉及参数隔离中的跨模态参数调整。例如，使用适配器或LoRA来调整LLM以处理时间序列数据，同时保持主干参数不变，实现参数隔离。引用[3]中的代码示例展示了加载预训练模型和分词器，这说明tokenizer和模型参数是分开加载的。在参数隔离训练中，可能需要不同的分词处理流程对应不同的参数分区，例如用户特定的分词处理对应独立的参数服务器分区，如之前提到的独立参数服务器架构。需要确保回答中正确使用LaTeX格式，例如分词算法的数学表达式，如BPE的合并步骤可以用$merge(vocab)$表示，WordPiece的概率计算$p(token1,token2) =\frac{count(token1, token2)}{count(token1)* count(token2)}$等。可能还需要讨论tokenizer在多任务或多用户场景中对参数隔离的影响，例如不同用户可能有不同的词汇表扩展，如何通过参数隔离避免相互干扰。或者，在联邦学习中，不同客户端的数据分词方式不同，参数隔离如何适应这种情况。总结，回答的结构应包括：Tokenizer的实现方式（子词方法、处理流程）、与参数隔离训练的关联点（多任务分词差异、参数模块适配、跨模态处理），以及相关引用内容的整合。同时生成相关问题，如tokenizer优化方法、参数隔离中的分词挑战等。</think>### 大模型Tokenizer实现方式与参数隔离训练的关联 #### 一、Tokenizer核心实现方式 1. **子词分词算法** - **Byte-Pair Encoding (BPE)** 通过迭代合并高频字符对构建词汇表，例如： $$ merge(vocab) = \arg\max_{(a,b)} count(a,b) $$ 应用于GPT系列模型[^3]。 - **WordPiece** 基于概率合并子词单元，选择合并后语言模型概率最大的组合： $$ p(token1, token2) = \frac{count(token1, token2)}{count(token1) \cdot count(token2)} $$ 应用于BERT等模型。 - **Unigram Language Model** 通过动态规划选择最优分词路径，最大化整体概率。 2. **多模态适配** 在跨模态场景中（如Time-LLM的跨模态适应[^2]），需对齐文本、图像、时间序列等不同模态的输入： - 文本模态：标准BPE分词 - 时间序列：分段离散化编码 - 图像模态：Patch分块线性投影 3. **特殊Token处理** - 添加任务控制符（如`[CLS]`、`[SEP]`） - 扩展领域特定符号（如金融领域`<STOCK>`标签） #### 二、与参数隔离训练的关联 1. **输入特征与参数分区的联动** - 在独立参数服务器架构中，不同用户的输入可能对应不同的分词策略（如领域专用词汇），需将特定token映射到专属参数分区[^1]。 - **示例**：医疗领域用户的分词结果触发医学知识参数分区的梯度更新。 2. **适配器层的分词敏感度** - 当使用适配器（Adapter）或LoRA进行参数隔离时，分词结果影响适配器激活： $$ h_{out} = h_{base} + \alpha \cdot f_{adapter}(h_{base}) $$ 若分词引入噪声（如未登录词），可能需动态调整适配器参数。 3. **跨模态对齐的隔离需求** - 多模态融合中（如引用[1]的层次化建模），不同模态的Tokenizer输出需路由到独立参数子空间： ```python # 伪代码示例 if modality == "text": grads.apply(text_params) elif modality == "time_series": grads.apply(time_lora_params) ``` 4. **联邦学习中的分词一致性** - 各客户端本地数据的分词差异可能导致参数冲突，需通过以下方式隔离： - 客户端专属词汇表扩展 - 基于掩码梯度路由的局部更新： $$ \theta_{client} = \theta_{global} \odot M_{client} $$ #### 三、关键技术挑战 | 挑战类型 | 解决方案 | |-------------------|-----------------------------| | 长尾词汇覆盖 | 动态子词扩展+参数冻结 | | 多模态对齐偏差 | 跨模态注意力掩码控制[^2] | | 隔离参数膨胀 | 共享嵌入层+私有适配器 | ---