大模型学习 (Datawhale_Happy-LLM)笔记8: Decoder-Only PLM

大模型学习 (Datawhale_Happy-LLM)笔记8: Decoder-Only PLM

概述

Decoder-Only 预训练语言模型(PLM)代表了当前大语言模型发展的主流方向。这种架构只使用 Transformer 的解码器(Decoder)部分进行堆叠构建,是目前大火的 LLM 的基础,包括引发热潮的ChatGPT和主流开源LLM如LLaMA 都采用了这种架构设计。

本文将深入剖析 Decoder-Only PLM 的技术原理、发展历程和实际应用,从GPT 系列的开创性工作到现代 LLM 架构的优化,全面解析这一引领当前大语言模型时代的核心技术路径。

1. 架构起源与发展历程

1.1 技术起源背景

Decoder-Only 架构的诞生源于对文本生成任务的专门设计。2018年,OpenAI 推出第一个 Decoder-Only 模型 GPT,开创了预训练-微调的技术范式。与传统方法不同,GPT 首先明确提出了通用预训练的概念,通过在大规模文本语料上进行无监督预训练,然后在特定任务上进行有监督微调。

1.2 技术发展路径

GPT 系列的发展体现了"规模即正义"的技术理念:

  • 预训练-微调范式:GPT 确立了现代大语言模型的基本训练流程
  • 规模化路径:通过不断扩大预训练数据和增加模型参数来提升性能
  • 生成优先设计:专门为文本生成任务优化的架构设计

这一技术路径最终在ChatGPT中得到验证,证明了Decoder-Only架构的强大潜力。

2. GPT 模型架构深度解析

2.1 整体架构设计

GPT模型采用纯解码器架构,主要组件包括:

核心组件结构
  1. Tokenizer部分

    • 文本分词处理
    • 转换为词典序号(input_ids)
    • 输入格式化
  2. Embedding层

    • 词嵌入(Word Embedding)
    • 位置编码(Positional Embedding)
    • 将input_ids转换为hidden_states
  3. Decoder层

    • 多个DecoderLayer堆叠
    • 每层包含注意力机制和前馈网络
    • 使用因果掩码(Causal Mask)
处理流程
输入文本 → Tokenizer → input_ids → Embedding → hidden_states 
→ DecoderLayers → 线性映射 → 输出概率分布 → 生成token

2.2 关键技术特点

注意力机制设计
  • 自注意力(Self-Attention):模型关注输入序列内部的关系
  • 因果掩码:防止模型"看到"未来的信息,保证自回归特性
  • 多头注意力:并行计算多个注意力头,增强表示能力
位置编码策略

GPT使用Sinusoidal位置编码(三角函数绝对位置编码),这种设计能够让模型理解序列中token的相对位置关系。

网络结构特点
  • MLP结构:使用一维卷积核而非线性矩阵进行特征提取
  • Pre Norm:在注意力和前馈网络之前进行LayerNorm
  • 残差连接:确保梯度流动和训练稳定性

2.3 GPT系列演进

根据文档内容,GPT系列的发展体现了规模扩展的重要性:

模型版本 主要特点 技术创新
GPT-1 开创性工作 确立预训练-微调范式
GPT-2 规模扩大 证明规模化的有效性
GPT-3 涌现能力 展现大模型的强大潜力
ChatGPT 产品化 结合RLHF实现产品突破

3. 因果语言模型(CLM, Causal Language Model)技术原理

3.1 CLM基本概念

因果语言模型(Causal Language Model)是Decoder-Only架构的核心预训练任务。CLM通过预测序列中下一个token来进行训练,这是传统N-gram语言模型在深度学习时代的自然扩展。

数学表示

给定序列 x1,x2,...,xnx_1, x_2, ..., x_nx1,x2,...,xn,CLM的目标是最大化:
P(x1,x2,...,xn)=∏i=1nP(xi∣x1,x2,...,xi−1)P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i | x_1, x_2, ..., x_{i-1})

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值