从零开始逐步指导开发者构建自己的大型语言模型（LLM）学习笔记- 第4章 GPT 的大语言模型架构Implementing a GPT model

本文链接：https://blog.youkuaiyun.com/chenchihwen/article/details/145067690

从零搭建 GPT 模型：开启文本生成之旅

一、GPT 模型概述

1.1 什么是 GPT 模型

GPT，全称为 Generative Pretrained Transformer，是一种基于 Transformer 架构的大型语言模型，旨在生成自然流畅的文本。它通过对海量文本数据的学习，掌握语言的语法、语义和逻辑，能够根据给定的上下文生成连贯的后续文本。

1.2 GPT 模型的应用场景

内容创作：辅助撰写新闻报道、故事、论文大纲等，激发创作灵感，提高写作效率。

智能客服：理解用户问题，提供准确、快速的回答，提升客户服务体验。

智能问答：回答各种领域的知识问题，如历史、科学、技术等。

代码生成：根据需求生成相应的代码片段，助力程序员开发。

二、编码 LLM 架构

2.1 GPT 模型架构剖析

输入层：将文本分词后转换为向量表示，通常采用词嵌入技术，如 Word2Vec 或 BERT 中的嵌入方法。

多层 Transformer：核心组件，由多个 Transformer 块堆叠而成，每个块包含多头注意力机制、前馈网络和层归一化等。

输出层：将 Transformer 输出转换为词汇表上的概率分布，以预测下一个单词。

2.2 构建基础框架

定义模型类，继承自 nn.Module，初始化模型的各层组件。

实现前向传播函数，按照输入层、Transformer 层、输出层的顺序依次传递数据。

三、层归一化（Layer Normalization）

3.1 原理与作用

原理：对神经网络层的激活值进行归一化，使其均值为 0，方差为 1。

作用：稳定训练过程，加快有效权重的收敛速度，减少梯度消失或爆炸问题，提高模型的泛化能力。

3.2 代码实现

计算输入张量在特征维度上的均值和方差。

对输入进行归一化处理，减去均值并除以方差的平方根。

引入可训练的缩放和平移参数，对归一化后的张量进行线性变换。

四、用 GELU 激活函数实现前馈网络

4.1 GELU 激活函数详解

公式：GELU (x) = x * Φ(x)，其中 Φ(x) 是标准高斯分布的累积分布函数。

优点：平滑的非线性函数，在输入小于 0 时输出及导数均不为 0，可更新更多参数，提升训练效率；相比 ReLU，参数精细化调整能力更强，训练更稳定。

4.2 前馈网络结构与代码实现

结构：包含两个线性层和一个 GELU 激活函数，第一个线性层扩展输入维度，GELU 激活后，第二个线性层压缩回原维度。

代码：使用 PyTorch 实现，定义前馈网络类，在前向传播中依次应用线性层和 GELU 激活。

五、添加快捷连接（Shortcut Connections）

5.1 快捷连接的意义

缓解梯度消失问题：使得梯度能够更顺畅地在网络中反向传播，避免深层网络中梯度趋近于 0。

增强模型学习能力：让模型能够更快地学习到输入与输出之间的映射关系，加速训练收敛。

5.2 实现方式

在 Transformer 块中，将输入直接加到多头注意力机制和前馈网络的输出上，实现残差连接。

六、在 Transformer 模块中连接注意力和线性层

6.1 多头注意力机制回顾

原理：将输入分别映射到多个子空间，通过并行的注意力头计算注意力得分，再将各头结果拼接并投影回原维度。

作用：捕捉输入序列不同位置之间的复杂关系，增强模型对上下文的理解能力。

6.2 线性层的作用与连接方式

作用：对多头注意力的作输出进行进一步的线性变换，调整特征维度，使其适应后续模块的输入要求。

连接：将多头注意力机制的输出直接输入线性层，通过权重矩阵相乘和偏置相加完成变换。

七、编码 GPT 模型

7.1 整合各组件

将输入嵌入层、多层 Transformer 块（包含注意力、前馈网络、层归一化和快捷连接）、输出层按顺序组合。

确保各组件间的输入输出维度匹配，数据能够顺畅流动。

7.2 模型初始化与参数设置

初始化模型的权重，可采用随机初始化或预训练模型的加载。

设置超参数，如学习率、层数、头数、嵌入维度等，根据任务需求和计算资源进行调优。

八、生成文本

8.1 生成流程

给定初始输入文本，通过分词转换为模型可接受的输入形式。

模型预测下一个单词的概率分布，根据采样策略（如贪心搜索、束搜索等）选择一个单词。

将所选单词添加到输入文本，重复上述步骤，直到生成结束标志或达到最大长度。

8.2 优化策略

温度参数调整：控制生成文本的随机性，温度越高越随机，越低越保守。

束搜索：同时保留多个可能的路径，选择综合得分最高的路径，提高生成质量。

九、总结与展望

9.1 项目总结

回顾从零搭建 GPT 模型的关键步骤，包括架构设计、组件实现、训练与生成。

强调层归一化、GELU 激活、快捷连接等技术对模型性能的提升作用。

9.2 未来展望

探讨 GPT 模型在更多领域的应用潜力，如医疗、金融、教育等。

关注模型的改进方向，如更高效的架构、更强的泛化能力、更好的可解释性。

Chapter 4: Implementing a GPT model from Scratch To Generate Text

整体目标

实现一个类似 GPT 的大语言模型架构，并为后续的训练做准备。展示如何构建模型的各个组件，以及如何使用该模型进行简单的文本生成。

代码主要内容

环境信息输出：输出matplotlib、torch和tiktoken的版本信息。
GPT 模型架构设计
- 模型配置：定义了GPT_CONFIG_124M配置字典，包含词汇表大小、上下文长度、嵌入维度、注意力头数、层数、辍学率和查询 - 键 - 值偏差等参数，这些参数用于构建一个小型的 GPT-2 模型。
- 模型搭建：
  - 定义DummyGPTModel类作为模型架构的占位符，其中包含词嵌入、位置嵌入、辍学层、一系列的 Transformer 块（使用占位符DummyTransformerBlock）、层归一化（使用占位符DummyLayerNorm）和输出头。
  - 定义DummyTransformerBlock和DummyLayerNorm类作为占位符，它们在forward方法中直接返回输入，不进行实际操作。
- 模型测试：使用tiktoken库的gpt2编码对文本进行编码，创建一个批次数据，并将其输入到DummyGPTModel中，打印输出形状和结果。
层归一化（Layer Normalization）
- 原理介绍：层归一化用于将神经网络层的激活值围绕均值 0 中心化，并将方差归一化到 1，以稳定训练并加速收敛。在 Transformer 块的多头注意力模块前后以及最终输出层之前都会应用层归一化。
- 代码实现：
  - 通过一个简单的神经网络层示例，展示如何计算均值、方差并进行归一化。
  - 定义LayerNorm类，实现层归一化的计算，并添加可训练的scale和shift参数，同时为避免除以零错误添加一个小的eps值。在计算方差时，采用与 GPT-2 训练时一致的有偏估计。
  - 对示例数据应用LayerNorm，验证其效果。
带有 GELU 激活函数的前馈网络实现
- 激活函数介绍：在大语言模型中，除了常用的 ReLU 激活函数，还会使用 GELU 和 SwiGLU 等更复杂的激活函数。GELU 是一种平滑的非线性函数，近似于 ReLU 但在负值时具有非零梯度。
- 代码实现：
  - 定义GELU类，实现 GELU 激活函数的近似计算。
  - 绘制 GELU 和 ReLU 激活函数的图像进行对比。
  - 定义FeedForward类，实现前馈网络模块，该模块由线性层、GELU 激活函数和另一个线性层组成。
  - 对随机输入数据应用FeedForward模块，验证其输出形状。
添加快捷连接（Shortcut Connections）
- 原理介绍：快捷连接（也称为跳跃连接或残差连接）最初用于计算机视觉的深度网络中，以缓解梯度消失问题。它通过将一层的输出添加到后面一层的输出，为梯度提供了一条更短的路径。
- 代码实现：
  - 定义ExampleDeepNeuralNetwork类，通过设置use_shortcut参数来控制是否使用快捷连接。
  - 定义print_gradients函数，用于计算并打印模型参数的梯度。
  - 分别创建不使用和使用快捷连接的模型实例，对输入数据进行前向和反向传播，打印梯度值，对比结果表明快捷连接可以防止早期层的梯度消失。
Transformer 块的实现
- 原理介绍：Transformer 块结合了多头注意力模块、线性层、前馈神经网络、辍学和快捷连接等组件。
- 代码实现：
  - 从之前的章节导入MultiHeadAttention模块（假设previous_chapters模块已定义）。
  - 定义TransformerBlock类，包含多头注意力模块、前馈网络、两个层归一化层和一个辍学层。在forward方法中，对注意力模块和前馈网络分别应用快捷连接。
  - 对随机输入数据应用TransformerBlock，验证输入输出形状。
GPT 模型的实现
- 模型整合：定义GPTModel类，将词嵌入、位置嵌入、辍学层、一系列的TransformerBlock、最终的层归一化和输出头整合到一起，形成完整的 GPT 模型架构。
- 模型参数与内存计算：
  - 实例化GPTModel，计算模型的总参数数量，发现其与 124M 参数的 GPT-2 模型不一致，原因是原始 GPT-2 模型使用了权重绑定（weight tying），即重用词嵌入层作为输出层。通过减去输出层的参数数量，可以得到 124M 参数的模型。
  - 计算模型的内存需求，假设使用 32 位浮点数（每个参数 4 字节），将总参数数量转换为兆字节。
- 不同配置参考：列出了 GPT-2 模型的不同配置，包括GPT2-small、GPT2-medium、GPT2-large和GPT2-XL，每个配置具有不同的嵌入维度、层数和注意力头数。
文本生成
- 贪心解码原理：定义generate_text_simple函数，实现贪心解码方法进行文本生成。在每一步中，模型选择具有最高概率的词（或令牌）作为下一个输出。
- 生成示例：对输入文本进行编码，将编码后的张量输入到模型中，使用generate_text_simple函数生成指定数量的新令牌，并将输出解码为文本。由于模型未训练，生成的文本是随机的。

In this chapter, we implement a GPT-like LLM architecture; the next chapter will focus on training this LLM

4.1 Coding an LLM architecture

这段话提到了一些关于大型语言模型（LLMs）的关键点。首先，GPT和Llama是基于原始Transformer架构的解码器部分构建的，它们按顺序生成单词，因此被称为“类解码器”的LLMs。与传统的深度学习模型相比，LLMs之所以更大，主要是因为其参数数量庞大，而非代码量。此外，LLMs的架构中有许多重复的元素。

简单来说，GPT和Llama这类模型通过模仿人类语言的生成方式来工作，它们的规模庞大，主要是因为需要大量的参数来学习和理解语言的复杂性。而且，这些模型在设计上有很多相似的部分，这种重复性有助于提高模型的效率和性能。

GPT 模型的结构示意图。
GPT model（GPT 模型）：整个框架代表 GPT 模型，这是一种基于深度学习的自然语言处理模型，能够生成类似人类语言的文本。
Output layers（输出层）：位于模型的上方，负责生成新的文本，每次生成一个单词，其目标是逐步生成连贯的文本内容，图中上方的文字 “Every effort moves you forward”（每一次努力都让你前进）可能是模型生成的示例文本。
内部结构
Transformer block（Transformer 模块）：是 GPT 模型的关键组成部分，图中提到在这一章中会实现包括所有子组件的 GPT 模型，并且 Transformer 模块是类似 GPT 的大型语言模型（LLMs）的重要组件。
Masked multi-head attention（掩码多头注意力机制）：是 Transformer 模块中的一个重要部分，图中注明在上一章已经实现了注意力模块。
Embedding layers（嵌入层）：位于模型的下方，负责将输入的文本转换为计算机可以处理的向量形式，图中提到嵌入层和分词（tokenization）在第二章已经介绍过，下方的 “Tokenized text”（分词后的文本）“Every effort moves you” 表示输入的文本经过分词后进入嵌入层。
从零开始逐步指导开发者构建自己的大型语言模型（LLM）学习笔记- 第3章编码注意力机制Coding Attention Mechanisms-优快云博客文章浏览阅读405次，点赞7次，收藏3次。这段文本主要讲解了在原始 Transformer 架构、GPT 模型以及大多数其他流行的大型语言模型（LLMs）中使用的自注意力机制的实现步骤。它提到了计算注意力权重的总体思路，并指出与之前介绍的基本注意力机制相比，主要的不同在于引入了在模型训练过程中更新的权重矩阵，这些可训练的权重矩阵对于模型（特别是模型内部的注意力模块）能够学习生成 “良好” 的上下文向量至关重要。https://blog.youkuaiyun.com/chenchihwen/article/details/144936755?spm=1001.2014.3001.5501
之前章节用小嵌入维度方便展示，现在要像小GPT - 2模型那样考虑规模。GPT - 2有不同参数量的模型，这里要编码最小模型（124百万参数，之前报告117M参数有误）。第6章展示如何加载预训练权重到实现中，且兼容345、762和1542百万参数的模型。简单说，就是从简单示例过渡到接近实际GPT - 2规模的模型构建，包括编码特定小模型的架构，还涉及加载预训练权重以适配不同规模的模型。