详解Keras3.0 KerasNLP Models: GPT2 GPT2Tokenizer

最新推荐文章于 2025-07-15 16:37:13 发布

原创

最新推荐文章于 2025-07-15 16:37:13 发布 · 1.4k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #机器学习 #keras

1、GPT2Tokenizer

用于将文本数据转换为适合训练和预测的格式，主要功能是将输入的文本进行分词、编码等操作，以便在神经网络中使用

keras_nlp.models.GPT2Tokenizer(vocabulary, merges, **kwargs)

参数说明

vocabulary：一个字典，包含词汇表的映射关系。键是单词，值是对应的索引。
merges：一个列表，包含合并规则。每个元素是一个元组，表示两个需要合并的单词及其对应的索引。
**kwargs：其他可选参数。

示例

from keras_nlp.models import GPT2Tokenizer

# 定义词汇表和合并规则
vocabulary = {"hello": 1, "world": 2, "!": 3}
merges = [(1, 2)]

# 创建分词器实例
tokenizer = GPT2Tokenizer(vocabulary, merges)

# 对文本进行分词和编码
text = "hello world!"
encoded_text = tokenizer.encode(text)
print(encoded_text)  # 输出：[1, 2, 3]

# 对编码后的文本进行解码
decoded_text = tokenizer.decode(encoded_text)
print(decoded_text)  # 输出："hello world!"

2、`from_preset`

GPT2Tokenizer.from_preset()</

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

缘起性空、

关注关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

【NLP】使用 Keras 保存和加载深度学习模型

gongdiwudu的专栏

07-23

8150

训练深度学习模型是一个耗时的过程。您可以在训练期间和训练后保存模型进度。因此，您可以从上次中断的地方继续训练模型，并克服漫长的训练挑战。这篇博文中，我们将介绍如何保存模型并使用 Keras 逐步加载它。我们还将探索模型检查点回调，它通常用于模型训练。

自然语言处理之语言模型：GPT：GPT模型架构详解

zhubeibei168的博客

06-06

749

在自然语言处理（NLP）领域，语言模型是核心组件之一，用于理解和生成人类语言。传统的语言模型，如N-gram模型和循环神经网络（RNN）模型，虽然在一定程度上能够捕捉语言的序列依赖性，但在处理长距离依赖和大规模数据集时存在局限性。2018年，OpenAI提出了一种基于Transformer架构的生成式预训练模型——GPT（Generative Pre-trained Transformer），旨在通过大规模无监督预训练来克服这些限制，从而在各种NLP任务上实现显著的性能提升。

参与评论您还未登录，请先登录后发表或查看评论

Tokenization系列【1】—— BPE&GPT2 tokenizer

weixin_45932862的博客

12-26

2277

编码流程可以总结成：正则表达式分词 -> 编码成utf-8 -> byte_encoder转换成对应的字符形成序列 -> bpe迭代合并字符 -> 根据encoder.json (即vocab) 转换成对应的索引（tokens）解码流程则比较简单，总结如下：tokens -> 反转键值对的vocab即为decoder，取出token对应的词 -> 反转键值对的byte_encoder即为byte_decoder，将每个字符转回utf-8索引 -> utf8解码 -> text"""

关于GPT2Tokenizer的一些发现

qq_34418352的博客

06-08

8729

在使用transformers里的GPT2Tokenizer时，看到一句话： GPT-2 BPE tokenizer. Peculiarities: Byte-level Byte-Pair-Encoding Requires a space to start the input string => the encoding methods should be called with theadd_prefix_spaceflag set toTrue. Otherwis...

gpt2Tokenizer

bliblisukabulie的博客

09-09

1236

nn.Embedding，根据字符对应的序号取，是可训练的Token是大模型的原子，一切都以标记为单位，与标记有关，不要忽略它！！非英语语言表现较差，英语比非英语多得多训练数据，得到更长的优质tokengpt2写python不利，太多缩进，gpt2把空格都当成了token同样的文本，gpt4的token数量比gpt2少一半，这是因为其token数量是gpt2的两倍，但这并不是好事，这意味着embedding表会非常大但有个最佳点，所有词汇表中的token数量恰到好处，适当密集且高效。

从零开始复现GPT2（三）：词表，Tokenizer和语料库的实现

qq_51957239的博客

01-31

3047

在构建词表的场景中，将词表大小设置为8的倍数可以确保数据在内存中的对齐。内存对齐是指数据在内存中按照一定的边界存储，这样做可以减少CPU或GPU在访问内存时的负载，从而提高数据处理的速度和效率。这个类的主要目的是为了处理一个经过分词处理的语料库，并在此基础上提供一些实用功能，适用于深度学习和自然语言处理任务中。类，这个类使用了一个词汇表（Vocab）实例和一些其他参数来进行文本的处理和标记化。是一个字典，将每个词汇映射到其在列表中的索引，以便快速查找。是一个列表，包含了所有的词汇（包括额外的特殊标记）。

Keras深度学习框架实战（5）：KerasNLP使用GPT2进行文本生成

MUKAMO的博客

06-03

1572

本文是一个关于如何使用KerasNLP库加载、微调GPT-2模型并进行文本生成的教程。它先指导用户设置Colab的GPU加速环境，然后介绍KerasNLP库，包括其预训练模型和模块化构建块。教程展示如何加载GPT-2模型，并基于用户输入生成文本。还包括了一个使用Reddit数据集微调模型的示例，以及探讨了Top-K、Beam等采样方法，并演示了在中文诗歌数据集上微调模型。通过这些步骤和代码示例，用户可以学习如何使用KerasNLP和GPT-2模型完成多种文本生成任务。

Python实战：GPT-2驱动的机器学习模型构建指南

fengbeely的博客

07-28

516

GPT-2是一种属于Generative Pre-trained Transformers的算法，是自然GPT-2是一种属于Generative Pre-trained Transformers的算法，是自然语言处理（NLP）领域具有重要影响力的算法之一。GPT-2模型的结构与GPT一脉相承，适用于语言模型，即预测给定一系列上下文词语后，下一个词的概率。值得注意的是，每一代GPT模型的参数量都在不断增长，例如2019年发布的GPT-2拥有15亿参数，而2020年发布的GPT-3则达到了1750亿参数。

自然语言处理之文本生成：GPT：GPT与语言理解

zhubeibei168的博客

05-22

875

在自然语言处理（NLP）领域，语言理解是核心任务之一，它涉及解析和理解文本的含义，包括语义、情感、意图等。GPT（Generative Pre-trained Transformer）模型，作为深度学习在NLP中的重要突破，通过大规模的无监督预训练，能够捕捉语言的复杂结构和语义，从而在多种语言理解任务中展现出色的性能。在自然语言处理领域，文本生成是一项关键任务，它涉及使用算法和模型来创建人类可读的文本。

自然语言处理之文本生成：GPT：GPT在文本生成中的应用

zhubeibei168的博客

05-22

1090

GPT（Generative Pre-trained Transformer）模型是基于Transformer架构的一种预训练语言模型。它通过自回归的方式，对输入的文本序列进行预测，生成下一个可能的词。GPT模型的核心在于其使用了Transformer的解码器部分，即多头自注意力机制（Multi-Head Self-Attention）和前馈神经网络（Feed-Forward Network），来处理序列数据。

深入解析GPT-2：BPE分词技术在Transformer模型中的应用

q_2625289483_q的博客

06-09

416

如果你的词典中没有这个词，那么就可以把它拆成 **“green”,“hand”**两个词，这里green 向量会跟发芽一类的词相近有新生的意思hand有操作手的意思那么就不难推测出greenhand是新手。当遇见没见过的词的时候以前是用"< u nk>"代替，这样会造成对新事物(新词、网络词、简写词)理解能力很差，BPE就是来解决这个问题的。这个过程中会参考一个词典，这个词典从上往下是一个个词对，对应的顺序就是它出现的频率越往上的词越高频率。下面是我找到觉得比较有用的资源。英文中会有词根和造词现象。

python怎么导入数据集keras_用于NLP的Python：使用Keras进行深度学习文本生成

weixin_39637363的博客

12-03

386

GPT2的应用和实现

qq_38148600的博客

10-17

4987

用了新的数据集进行训练：百万级别的文本。同时模型规模也变大很多，参数量变为15亿（BERT_LARGE参数量3.4亿）。规模变大这么多的情况下，作者发现和BERT相比优势不大，所以选择了另一个观点作为切入点——Zero-shot（简单来说就是，训练好一个模型，在任何一个场景都能直接使用，泛化性很好）。GPT-2的架构非常非常大，参数量也非常多。非常神奇的事情发生了，GPT-2在完全没有训练数据。

huggingface笔记：gpt2

qq_40206371的博客

07-06

2753

包含 torch.FloatTensor 的元组（如果模型具有嵌入层，则为嵌入输出的一个 + 每层输出的一个），形状为 (batch_size, sequence_length, hidden_size)。的元组，每个元组包含形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的 2 个张量。(torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) —

【知识扫盲】tokenizer.json中的vocab和merges是什么？

xyz3120的专栏

07-15

1179

vocab：是子词到 ID 的映射表，它能将文本转换为模型可以处理的数字形式。merges：是子词合并规则，它决定了如何从基础字符构建出子词。相互关系merges规则生成子词，而vocab负责存储这些子词并为它们分配 ID。通过这种方式，子词分词器能够在处理常见词时保持完整性，同时将罕见词拆分成有意义的片段，有效平衡了词汇表的大小和表达能力。

NLP入门学习2——文本分类（基于keras搭建LSTM）

weixin_44826203的博客

07-23

2239

NLP入门学习2——文本分类（基于keras搭建LSTM）0.简介1.环境依赖2.分词处理3.模型构建3.1 单向单层的LSTM3.2 单向多层的LSTM3.3 双向LSTM4.模型的保存和应用4.1 模型的保存4.2 模型的应用5.结束 0.简介本文将以实战的方式详细介绍使用keras搭建单层、多层、单向、双向的LSTM模型，以完成对新闻数据的分类。主要面向NLP初学者，所以写的尽可能详细，当然也欢迎各路大佬提出宝贵的意见。所用的数据为清华大学新闻数据THUCNews的子集，下载链接：https:/

训练自己的GPT2模型（中文），踩坑与经验

详解Keras3.0 KerasNLP Models: GPT2 GPT2Tokenizer

1、GPT2Tokenizer

参数说明

示例

2、from_preset

2、`from_preset`