大模型学习 (Datawhale_Happy-LLM)笔记8: Decoder-Only PLM
概述
Decoder-Only 预训练语言模型(PLM)代表了当前大语言模型发展的主流方向。这种架构只使用 Transformer 的解码器(Decoder)部分进行堆叠构建,是目前大火的 LLM 的基础,包括引发热潮的ChatGPT和主流开源LLM如LLaMA 都采用了这种架构设计。
本文将深入剖析 Decoder-Only PLM 的技术原理、发展历程和实际应用,从GPT 系列的开创性工作到现代 LLM 架构的优化,全面解析这一引领当前大语言模型时代的核心技术路径。
1. 架构起源与发展历程
1.1 技术起源背景
Decoder-Only 架构的诞生源于对文本生成任务的专门设计。2018年,OpenAI 推出第一个 Decoder-Only 模型 GPT,开创了预训练-微调的技术范式。与传统方法不同,GPT 首先明确提出了通用预训练的概念,通过在大规模文本语料上进行无监督预训练,然后在特定任务上进行有监督微调。
1.2 技术发展路径
GPT 系列的发展体现了"规模即正义"的技术理念:
- 预训练-微调范式:GPT 确立了现代大语言模型的基本训练流程
- 规模化路径:通过不断扩大预训练数据和增加模型参数来提升性能
- 生成优先设计:专门为文本生成任务优化的架构设计
这一技术路径最终在ChatGPT中得到验证,证明了Decoder-Only架构的强大潜力。
2. GPT 模型架构深度解析
2.1 整体架构设计
GPT模型采用纯解码器架构,主要组件包括:
核心组件结构
-
Tokenizer部分:
- 文本分词处理
- 转换为词典序号(input_ids)
- 输入格式化
-
Embedding层:
- 词嵌入(Word Embedding)
- 位置编码(Positional Embedding)
- 将input_ids转换为hidden_states
-
Decoder层:
- 多个DecoderLayer堆叠
- 每层包含注意力机制和前馈网络
- 使用因果掩码(Causal Mask)
处理流程
输入文本 → Tokenizer → input_ids → Embedding → hidden_states
→ DecoderLayers → 线性映射 → 输出概率分布 → 生成token
2.2 关键技术特点
注意力机制设计
- 自注意力(Self-Attention):模型关注输入序列内部的关系
- 因果掩码:防止模型"看到"未来的信息,保证自回归特性
- 多头注意力:并行计算多个注意力头,增强表示能力
位置编码策略
GPT使用Sinusoidal位置编码(三角函数绝对位置编码),这种设计能够让模型理解序列中token的相对位置关系。
网络结构特点
- MLP结构:使用一维卷积核而非线性矩阵进行特征提取
- Pre Norm:在注意力和前馈网络之前进行LayerNorm
- 残差连接:确保梯度流动和训练稳定性
2.3 GPT系列演进
根据文档内容,GPT系列的发展体现了规模扩展的重要性:
| 模型版本 | 主要特点 | 技术创新 |
|---|---|---|
| GPT-1 | 开创性工作 | 确立预训练-微调范式 |
| GPT-2 | 规模扩大 | 证明规模化的有效性 |
| GPT-3 | 涌现能力 | 展现大模型的强大潜力 |
| ChatGPT | 产品化 | 结合RLHF实现产品突破 |
3. 因果语言模型(CLM, Causal Language Model)技术原理
3.1 CLM基本概念
因果语言模型(Causal Language Model)是Decoder-Only架构的核心预训练任务。CLM通过预测序列中下一个token来进行训练,这是传统N-gram语言模型在深度学习时代的自然扩展。
数学表示
给定序列 x1,x2,...,xnx_1, x_2, ..., x_nx1,x2,...,xn,CLM的目标是最大化:
P(x1,x2,...,xn)=∏i=1nP(xi∣x1,x2,...,xi−1)P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, x_2, ..., x_{i-1})

最低0.47元/天 解锁文章
513

被折叠的 条评论
为什么被折叠?



