大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM

最新推荐文章于 2025-09-02 17:58:52 发布

原创

最新推荐文章于 2025-09-02 17:58:52 发布 · 751 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #language model #自然语言处理 #神经网络 #人工智能 #深度学习

大模型学习（Datawhale_Happy-LLM）笔记7: Encoder-Decoder PLM

1. Encoder-Decoder架构概述

1.1 架构基础

Encoder-Decoder PLM是基于原始Transformer架构的完整实现，它同时保留了编码器（Encoder）和解码器（Decoder）两个核心组件。这种设计使得模型能够兼具文本理解和生成的双重能力，特别适合处理序列到序列（Seq2Seq）的转换任务。

1.2 核心特点

完整性保留：与仅使用Encoder的BERT [1] 和仅使用Decoder的GPT 不同，Encoder-Decoder架构完整保留了原始Transformer的双重结构，体现了Transformer设计的完整性。

双向处理能力：编码器进行双向编码，能够充分理解输入序列的上下文信息；解码器进行单向生成，确保生成过程的自回归特性。

序列转换专长：专门设计用于处理输入序列到输出序列的转换任务，如机器翻译、文本摘要、问答系统等。

1.3 工作原理

Encoder-Decoder模型的工作流程可以分为三个主要阶段：

编码阶段：Encoder对输入序列进行双向编码，生成包含丰富上下文信息的表示向量
解码阶段：Decoder基于编码表示和已生成的部分序列，逐步生成目标序列
交互机制：通过交叉注意力机制实现编码器和解码器之间的信息传递

2. T5模型：Encoder-Decoder架构的典型代表

2.1 T5模型概述

T5（Text-to-Text Transfer Transformer）是Google推出的Encoder-Decoder PLM的典型代表 [4][5]，它体现了"大一统"的设计思想，将所有NLP任务统一为"文本到文本"的处理框架。

2.2 核心创新：Text-to-Text统一框架

T5的最大创新在于其统一的任务范式设计：

统一输入输出格式：所有任务的输入和输出都是自然语言文本，消除了不同任务间的格式差异。

任务前缀机制：通过在输入文本前添加任务描述前缀来区分不同的任务类型，例如：

摘要任务："summarize: [原文本]" → "[摘要文本]"
翻译任务："translate English to German: [英文文本]" → "[德文文本]"
问答任务："question: [问题] context: [上下文]" → "[答案]"

大一统思想的优势：

简化了任务处理流程，统一的输入输出格式降低了系统复杂度
增强了模型的通用性，单一模型可以处理多种NLP任务
便于模型微调，统一框架使得模型更容易适应新任务
提高了实际应用的效率，为产业应用提供了更便捷的解决方案

3. T5详细架构分析

3.1 整体架构设计

T5模型主要由两个核心部分组成：

T5模型
├── Tokenizer部分
│   ├── 文本分词
│   ├── 编码转换
│   └── 输入格式化
└── Transformer部分
    ├── EncoderLayers
    │   └── 多个EncoderLayer Block
    └── DecoderLayers
        └── 多个DecoderLayer Block

3.2 EncoderLayer详细结构

每个EncoderLayer包含以下核心组件：

组件构成：

Self-Attention机制
LayerNorm层（使用RMSNorm）
前馈神经网络（LayerFF）
残差连接

处理流程：

输入 → LayerNorm → Self-Attention → 残差连接 → LayerNorm → LayerFF → 残差连接 → 输出

3.3 DecoderLayer详细结构

每个DecoderLayer的组件构成更为复杂：

组件构成：

Masked Self-Attention机制
Encoder-Decoder Attention机制
LayerNorm层（使用RMSNorm）
前馈神经网络（LayerFF）
残差连接

处理流程：

输入 → LayerNorm → Masked Self-Attention → 残差连接 
     → LayerNorm → Encoder-Decoder Attention → 残差连接
     → LayerNorm → LayerFF → 残差连接 → 输出

3.4 Self-Attention机制解析

核心组件：

Query、Key、Value状态计算
注意力权重计算（QK^T）
位置偏置（Position Bias）
Softmax归一化
加权求和（MatMul）

计算流程：

hidden_states → Query/Key/Value变换
Query × Key^T → attention_scores
attention_scores + position_bias → scaled_scores
Softmax(scaled_scores) → attention_weights
attention_weights × Value → output