大模型学习（Datawhale_Happy-LLM）笔记8: Decoder-Only PLM

最新推荐文章于 2025-12-02 10:08:59 发布

原创

最新推荐文章于 2025-12-02 10:08:59 发布 · 1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #语言模型 #深度学习 #神经网络 #transformer #人工智能

大模型学习（Datawhale_Happy-LLM）笔记8: Decoder-Only PLM

概述

Decoder-Only 预训练语言模型（PLM）代表了当前大语言模型发展的主流方向。这种架构只使用 Transformer 的解码器（Decoder）部分进行堆叠构建，是目前大火的 LLM 的基础，包括引发热潮的ChatGPT和主流开源LLM如LLaMA 都采用了这种架构设计。

本文将深入剖析 Decoder-Only PLM 的技术原理、发展历程和实际应用，从GPT 系列的开创性工作到现代 LLM 架构的优化，全面解析这一引领当前大语言模型时代的核心技术路径。

1. 架构起源与发展历程

1.1 技术起源背景

Decoder-Only 架构的诞生源于对文本生成任务的专门设计。2018年，OpenAI 推出第一个 Decoder-Only 模型 GPT，开创了预训练-微调的技术范式。与传统方法不同，GPT 首先明确提出了通用预训练的概念，通过在大规模文本语料上进行无监督预训练，然后在特定任务上进行有监督微调。

1.2 技术发展路径

GPT 系列的发展体现了"规模即正义"的技术理念：

预训练-微调范式：GPT 确立了现代大语言模型的基本训练流程
规模化路径：通过不断扩大预训练数据和增加模型参数来提升性能
生成优先设计：专门为文本生成任务优化的架构设计

这一技术路径最终在ChatGPT中得到验证，证明了Decoder-Only架构的强大潜力。

2. GPT 模型架构深度解析

2.1 整体架构设计

GPT模型采用纯解码器架构，主要组件包括：

核心组件结构

Tokenizer部分：
- 文本分词处理
- 转换为词典序号(input_ids)
- 输入格式化
Embedding层：
- 词嵌入(Word Embedding)
- 位置编码(Positional Embedding)
- 将input_ids转换为hidden_states
Decoder层：
- 多个DecoderLayer堆叠
- 每层包含注意力机制和前馈网络
- 使用因果掩码(Causal Mask)

处理流程

输入文本 → Tokenizer → input_ids → Embedding → hidden_states 
→ DecoderLayers → 线性映射 → 输出概率分布 → 生成token

2.2 关键技术特点

注意力机制设计

自注意力(Self-Attention)：模型关注输入序列内部的关系
因果掩码：防止模型"看到"未来的信息，保证自回归特性
多头注意力：并行计算多个注意力头，增强表示能力

位置编码策略

GPT使用Sinusoidal位置编码（三角函数绝对位置编码），这种设计能够让模型理解序列中token的相对位置关系。

网络结构特点

MLP结构：使用一维卷积核而非线性矩阵进行特征提取
Pre Norm：在注意力和前馈网络之前进行LayerNorm
残差连接：确保梯度流动和训练稳定性

2.3 GPT系列演进

根据文档内容，GPT系列的发展体现了规模扩展的重要性：

模型版本	主要特点	技术创新
GPT-1	开创性工作	确立预训练-微调范式
GPT-2	规模扩大	证明规模化的有效性
GPT-3	涌现能力	展现大模型的强大潜力
ChatGPT	产品化	结合RLHF实现产品突破

3. 因果语言模型（CLM, Causal Language Model）技术原理

3.1 CLM基本概念

因果语言模型（Causal Language Model）是Decoder-Only架构的核心预训练任务。CLM通过预测序列中下一个token来进行训练，这是传统N-gram语言模型在深度学习时代的自然扩展。

数学表示

给定序列 $x_1, x_2, ..., x_n$ ，CLM的目标是最大化：
$P(x1,x2,...,xn)=∏i=1nP(xi∣x1,x2,...,xi−1)P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, x_2, ..., x_{i-1})$

最低0.47元/天解锁文章

大模型学习 （Datawhale_Happy-LLM）笔记8: Decoder-Only PLM

大模型学习 （Datawhale_Happy-LLM）笔记8: Decoder-Only PLM

概述

1. 架构起源与发展历程

1.1 技术起源背景

1.2 技术发展路径

2. GPT 模型架构深度解析

2.1 整体架构设计

核心组件结构

处理流程

2.2 关键技术特点

注意力机制设计

位置编码策略

网络结构特点

2.3 GPT系列演进

3. 因果语言模型（CLM, Causal Language Model）技术原理

3.1 CLM基本概念

数学表示

大模型学习（Datawhale_Happy-LLM）笔记8: Decoder-Only PLM

大模型学习（Datawhale_Happy-LLM）笔记8: Decoder-Only PLM