Transformer 三大变体之Decoder-Only模型详解

最新推荐文章于 2025-10-25 23:36:21 发布

原创最新推荐文章于 2025-10-25 23:36:21 发布 · 2.6k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能 #AI大模型 #大模型 #ai #大语言模型

一、前言

Transformer 的三大变体：Decoder-Only 专注生成文本，Encoder-Only 擅于分析文本，Encoder-Decoder 融合编解码实现文本生成和文本分析。

在这里插入图片描述

蓝色分支 Decoder-Only 模型：随着时间的推移，越来越多的 Decoder-Only 模型被推出，如 LLama、GPT 等，显示了这一分支的活跃度和发展势头。

粉色分支 Encoder-Only 模型：这些模型主要用于编码和表示输入序列，如 BERT、RoBERTa 等。

绿色分支 Encoder-Decoder 模型：结合了前两者的特点，既能够编码输入序列，又能生成输出序列，如 T5、GLM（清华）。

本文重点介绍Decoder-Only 模型，Decoder-Only 模型就如同一位即兴演讲者。你为他提供一个话题或者一个开头，比如“未来城市的模样”，他便能根据这个引子，滔滔不绝地展开演讲，描述出他心中的未来城市景象，直至演讲结束。模型擅长创造性写作，具备出色的文本生成能力。它能够根据已有信息，灵活扩展出新颖、连贯的内容，如自动生成文章、续写故事等。典型模型如OpenAI GPT、Meta LLama，用于文本生成，通过捕捉文本中的语言模式和风格，使生成的文本更加自然、流畅。

Decoder-Only 模型的结构是什么？

Decoder-Only 模型只使用标准 Transformer 的 Decoder 部分，但稍作改动，如下图所示：

在这里插入图片描述

1、嵌入层（Embedding Layer）

将输入的 Token ID 序列映射到稠密向量空间，得到每个 Token 对应的嵌入向量。
位置编码（Positional Encoding）与 Token 嵌入向量相加，用于保留序列的顺序信息。

2、多头自注意力层（Multi-Head Self-Attention Layer）

使用因果掩码（Causal Mask）确保第 ttt 个 Token 只能关注它自己及其之前的 Token，避免“偷看”未来的 Token。

3、前馈网络（Feed-Forward Network, FFN）

对每个 Token 的隐藏状态独立应用两层全连接网络，增加非线性表达能力。

4、残差连接（Residual Connection）与层归一化（Layer Normalization）

提供稳定性并加速训练

5、输出层

最后一层是一个线性变换和 Softmax 函数，将隐藏状态映射为词表中每个 Token 的概率分布。

Decoder-Only 模型与标准 Transformer 的 Decoder 部分典型差异是少了编码器解码器注意层，即在 Decoder-Only 模型不需要接收编码器的信息输入。

Decoder-Only 模型是如何工作的？

下面是 Decoder-Only 模型处理输入并生成输出的完整流程：

1、输入预处理

用户提供的文本 text（如 “I love”）。
文本经过 Token 化（例如 [“I”, “love”] → [104, 301]）和位置编码。

2、嵌入层

Token ID 通过嵌入层映射到向量空间，例如：输入序列 [104, 301] → 嵌入向量 [[0.3, 0.2, …], [0.5, 0.7, …]]。
位置编码加到嵌入向量上，保留序列信息。

3、自注意力机制（Self-Attention）

每个 Token 生成查询（Query）、键（Key）和值（Value）向量，通过点积计算注意力分数。
因果掩码限制未来 Token 的可见性：对于序列 [104, 301]，第一个 Token（104）只能“看到”自己，第两个 Token（301）只能“看到”第一个和自己。
计算每个 Token 的上下文向量，更新嵌入信息。

4、前馈网络（FFN）

每个 Token 的上下文向量单独通过两层全连接网络，生成更高维度的表示。

5、输出概率分布

最后一层是线性层，将前馈网络的输出映射到词表的维度。
通过 Softmax 函数计算每个 Token 对应词表中所有词的概率分布。

6、生成下一个 Token

模型输出的是词表中每个词的概率分布，例如：“I love” → [0.1, 0.3, 0.6, …]
选择最高概率的 Token（如 “NLP”），或者通过采样算法（如 Top-k、Top-p）生成。

Decoder-Only 模型中只有一个解码器没有编码器，解码器部分能完成多种任务，包括理解用户输入和生成内容，使得单一的解码器结构能够处理复杂多样的自然语言处理任务，其关键原因是：

大规模预训练：Decoder-Only模型首先在大量的文本数据上进行无监督预训练。在这个过程中，模型学习到如何预测给定上下文后的下一个词，这不仅让模型学会了语言的语法、语义规则，还让它能够理解文本中的长期依赖关系。这种预训练使模型具备了对新输入的理解能力。

自回归生成：在生成内容时，Decoder-Only模型采用自回归方式工作，即根据前面已经生成或给出的文字来预测下一个最可能的词。随着每个新词的加入，整个句子的意义逐渐形成。这样的机制允许模型基于上下文生成连贯且逻辑一致的内容。

没有 Encode 模块，Decoder-Only 模型如何理解用户输入的？

从上述工作流程中可以看出，Decoder-Only 模型没有显式的编码器模块，与 Encoder-Decoder 架构不同，Decoder-Only 模型不显式区分“理解”和“生成”阶段：

Encoder-Decoder 模型：输入通过 Encoder 被编码为上下文向量，Decoder 利用这些向量生成输出。这种结构中，输入的理解与输出生成是分离的。
Decoder-Only 模型：用户输入直接作为 Decoder 的输入，模型在自注意力机制中隐式完成理解和建模，同时为生成任务提供基础。

Decoder-Only 模型虽然没有编码器，但是不代表它不分析或理解用户输入。实际上，用户输入的分析和理解是在 Decoder 本身的自注意力机制（Self-Attention）中完成的，在自注意力层完成以下操作

输入序列的每个 Token 通过自注意力机制与整个序列中的其他 Token 进行交互。
自注意力机制计算了每个 Token 与其他 Token 之间的相关性（即注意力权重），从而捕获输入序列的上下文关系和全局语义信息。

例子：对于输入 “What is AI”,

自注意力机制分析 “What” 和 “is” 的关系，以及它们与 “AI” 的关系。
通过注意力权重，模型逐步提取输入序列的语义特征。

Decoder-Only 模型虽然也能分析或理解用户输入，但是因为结构差异，Decoder-Only 模型也存在一定的局限性：

1、输入长度受限于生成长度

Decoder-Only 模型处理用户输入时，将输入视为生成序列的开头部分，与未来生成的内容共享同一序列窗口。
如果输入非常长，可能会占用较多的序列窗口空间，导致对上下文信息的捕捉不完整。
例如，GPT 模型可能在处理特别长的输入时无法很好地捕捉全局上下文。

2、隐式建模输入语义

用户输入的理解与生成目标共享同一个模块（自注意力机制）。这种共享机制可能在生成复杂输出时分散注意力，导致对输入的理解不够精确。

3、缺乏明确的输入表示优化

Decoder-Only 模型没有独立优化输入表示的过程，这可能导致它对长文本、复杂结构输入的处理效果逊色于 Encoder-Decoder 模型。

虽然 Decoder-Only 模型在输入理解上略逊一筹，但可以通过以下方式弥补：

1、增加模型规模：更大的模型（如 GPT-4、GPT-4 Turbo）通过参数量提升，能够更好地捕捉输入信息。

2、优化训练数据：通过多样化、精细化的训练数据，让模型在隐式理解方面有更好的表现。

3、使用注意力机制增强：例如基于注意力稀疏化的改进，提升模型对长序列的捕捉能力。

为什么会有 Decoder-Only模型，而不统一使用 Encoder-Decoder 模式？

1、模型架构的任务适配性

Encoder-Decoder 模式是为“输入-输出”强耦合的任务设计的，例如机器翻译、问答和摘要生成。

-输入（源语言文本）需要被 Encoder 充分理解。

-输出（目标语言文本）需要由 Decoder 基于 Encoder 的表示生成。
对于“纯生成”任务（如对话、续写），没有明确的“输入”和“输出”分界，Encoder 的引入会显得多余。

2、Decoder-Only 模式的高效性

Decoder-Only 模型省略了 Encoder：