大模型学习 (Datawhale_Happy-LLM)笔记7: Encoder-Decoder PLM
1. Encoder-Decoder架构概述
1.1 架构基础
Encoder-Decoder PLM是基于原始Transformer架构的完整实现,它同时保留了编码器(Encoder)和解码器(Decoder)两个核心组件。这种设计使得模型能够兼具文本理解和生成的双重能力,特别适合处理序列到序列(Seq2Seq)的转换任务。
1.2 核心特点
完整性保留:与仅使用Encoder的BERT [1] 和仅使用Decoder的GPT 不同,Encoder-Decoder架构完整保留了原始Transformer的双重结构,体现了Transformer设计的完整性。
双向处理能力:编码器进行双向编码,能够充分理解输入序列的上下文信息;解码器进行单向生成,确保生成过程的自回归特性。
序列转换专长:专门设计用于处理输入序列到输出序列的转换任务,如机器翻译、文本摘要、问答系统等。
1.3 工作原理
Encoder-Decoder模型的工作流程可以分为三个主要阶段:
- 编码阶段:Encoder对输入序列进行双向编码,生成包含丰富上下文信息的表示向量
- 解码阶段:Decoder基于编码表示和已生成的部分序列,逐步生成目标序列
- 交互机制:通过交叉注意力机制实现编码器和解码器之间的信息传递
2. T5模型:Encoder-Decoder架构的典型代表
2.1 T5模型概述
T5(Text-to-Text Transfer Transformer)是Google推出的Encoder-Decoder PLM的典型代表 [4][5],它体现了"大一统"的设计思想,将所有NLP任务统一为"文本到文本"的处理框架。
2.2 核心创新:Text-to-Text统一框架
T5的最大创新在于其统一的任务范式设计:
统一输入输出格式:所有任务的输入和输出都是自然语言文本,消除了不同任务间的格式差异。
任务前缀机制:通过在输入文本前添加任务描述前缀来区分不同的任务类型,例如:
- 摘要任务:
"summarize: [原文本]" → "[摘要文本]" - 翻译任务:
"translate English to German: [英文文本]" → "[德文文本]" - 问答任务:
"question: [问题] context: [上下文]" → "[答案]"
大一统思想的优势:
- 简化了任务处理流程,统一的输入输出格式降低了系统复杂度
- 增强了模型的通用性,单一模型可以处理多种NLP任务
- 便于模型微调,统一框架使得模型更容易适应新任务
- 提高了实际应用的效率,为产业应用提供了更便捷的解决方案
3. T5详细架构分析
3.1 整体架构设计
T5模型主要由两个核心部分组成:
T5模型
├── Tokenizer部分
│ ├── 文本分词
│ ├── 编码转换
│ └── 输入格式化
└── Transformer部分
├── EncoderLayers
│ └── 多个EncoderLayer Block
└── DecoderLayers
└── 多个DecoderLayer Block
3.2 EncoderLayer详细结构
每个EncoderLayer包含以下核心组件:
组件构成:
- Self-Attention机制
- LayerNorm层(使用RMSNorm)
- 前馈神经网络(LayerFF)
- 残差连接
处理流程:
输入 → LayerNorm → Self-Attention → 残差连接 → LayerNorm → LayerFF → 残差连接 → 输出
3.3 DecoderLayer详细结构
每个DecoderLayer的组件构成更为复杂:
组件构成:
- Masked Self-Attention机制
- Encoder-Decoder Attention机制
- LayerNorm层(使用RMSNorm)
- 前馈神经网络(LayerFF)
- 残差连接
处理流程:
输入 → LayerNorm → Masked Self-Attention → 残差连接
→ LayerNorm → Encoder-Decoder Attention → 残差连接
→ LayerNorm → LayerFF → 残差连接 → 输出
3.4 Self-Attention机制解析
核心组件:
- Query、Key、Value状态计算
- 注意力权重计算(QK^T)
- 位置偏置(Position Bias)
- Softmax归一化
- 加权求和(MatMul)
计算流程:
hidden_states → Query/Key/Value变换
Query × Key^T → attention_scores
attention_scores + position_bias → scaled_scores
Softmax(scaled_scores) → attention_weights
attention_weights × Value → output
4. RMSNorm技术创新
4.1 RMSNorm数学原理
T5模型采用RMSNorm替代传统的LayerNorm,这是一个重要的技术创新。RMSNorm的数学公式为:
RMSNorm(xi)=xi1n∑j=1nxj2+ϵ⋅gi\text{RMSNorm}(x_i) = \frac{x_i}{\sqrt{\frac{1}{n}\sum_{j=1}^{n}x_j^2 + \epsilon}} \cdot g_iRMSNorm(x

最低0.47元/天 解锁文章
6012

被折叠的 条评论
为什么被折叠?



