datawhale组队学习-大语言模型-task5：主流模型架构及新型架构

原创

已于 2025-03-23 18:29:38 修改 · 1.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #大模型

于 2025-03-23 18:20:09 首次发布

5.3 主流架构

在预训练语言模型时代，自然语言处理领域广泛采用了预训练 + 微调的范式，并诞生了以 BERT 为代表的编码器（Encoder-only）架构、以 GPT 为代表的解码器（Decoder-only）架构和以 T5 为代表的编码器-解码器（Encoder-decoder）架构的大规模预训练语言模型。随着 GPT 系列模型的成功发展，当前自然语言处理领域走向了生成式大语言模型的道路，解码器架构已经成为了目前大语言模型的主流架构。进一步，解码器架构还可以细分为两个变种架构，包括因果解码器（Causal Decoder）架构和前缀解码器（Prefix Decoder）架构。学术界所提到解码器架构时，通常指的都是因果解码器架构。图 5.6 针对这三种架构进行了对比。

因果解码器前缀解码器编码器-解码器

图 5.6 三种主流架构的注意力模式比较示意图（蓝色、绿色、黄色和灰色的圆角矩形分别表示前缀词元之间的注意力、前缀词元和目标词元之间的注意力、目标词元之间的注意力以及掩码注意力）

5.3.1 编码器-解码器架构

编码器-解码器架构是自然语言处理领域里一种经典的模型结构，广泛应用于如机器翻译等多项任务。原始的 Transformer 模型也使用了这一架构，组合了两个分别担任编码器和解码器的 Transformer 模块。如图 5.6 所示，此架构在编码器端采用了双向自注意力机制对输入信息进行编码处理，而在解码器端则使用了交叉注意力与掩码自注意力机制，进而通过自回归的方式对输出进行生成。基于编码器-解码器设计的预训练语言模型（诸如 T5 等）在众多自然语言理解与生成任务中展现出了优异的性能，但是目前只有如 FLAN-T5 等少数大语言模型是基于编码器-解码器架构构建而成的。

5.3.2 因果解码器架构

当前，绝大部分主流的大语言模型采用了因果解码器架构。因果解码器采用了 Transformer 中的解码器组件，同时做出了几点重要改动。首先，因果解码器没有显式地区分输入和输出部分。如图 5.6 所示，该架构采用了单向的掩码注意力机制，使得每个输入的词元只关注序列中位于它前面的词元和它本身，进而自回归地预测输出的词元。此外，由于不含有编码器部分，因果解码器删除了关注编码器表示的交叉注意力模块。经过自注意力模块后的词元表示将直接送入到前馈神经网络中。在因果解码器架构中，最具有代表性的模型就是 OpenAI 推出的 GPT 系列。其中，GPT-3 将模型参数拓展到了 100B 级别，并展现出了强大的零样本和少样本学习能力。伴随着 GPT-3 的成功，因果解码器被广泛采用于各种大语言模型中，包括 BLOOM、LLaMA 和 Mistral 等。

5.3.3 前缀解码器架构

前缀解码器架构也被称为非因果解码器架构，对于因果解码器的掩码机制进行了修改。该架构和因果解码器一样，仅仅使用了解码器组件。与之不同的是，该架构参考了编码器-解码器的设计，对于输入和输出部分进行了特定处理。如图 5.6 所示，前缀解码器对于输入（前缀）部分使用双向注意力进行编码，而对于输出部分利用单向的掩码注意力利用该词元本身和前面的词元进行自回归地预测。与编码器-解码器不同的是，前缀解码器在编码和解码过程中是共享参数的，并没有划分为独立的解码器和编码器。对于前缀解码器，也可以由现有的因果解码器继续预训练转换而来，进而加速该模型的训练。

5.4 长上下文模型

在实际应用中，大语言模型对于长文本数据的处理需求日益凸显，尤其在长文档分析、多轮对话、故事创作等场景下。在这些情况下，模型需要处理的文本的长度常常超出预定义上下文窗口大小。例如，LLaMA-2 的上下文窗口限制为 4,096个词元。为了支持长文本处理，多家机构均已推出面向具有超长上下文窗口的大语言模型或 API。例如，OpenAI 发布了支持 128K 上下文窗口的 GPT-4 Turbo，而 Anthropic 则推出了具有 200K 上下文窗口的 Claude-2.1。

给定一个预训练后的大语言模型，如何有效拓展其上下文窗口以应对更长的文本数据成为当前学术界的研究焦点。目前，增强大语言模型长文本建模能力的研究主要集中在两个方向：一是扩展位置编码，二是调整上下文窗口。除了探讨拓展上下文窗口的方法外，本部分将在最后探讨训练长上下文模型所需的长文本数据。