大模型学习 (Datawhale_Happy-LLM)笔记7: Encoder-Decoder PLM

大模型学习 (Datawhale_Happy-LLM)笔记7: Encoder-Decoder PLM

1. Encoder-Decoder架构概述

1.1 架构基础

Encoder-Decoder PLM是基于原始Transformer架构的完整实现,它同时保留了编码器(Encoder)和解码器(Decoder)两个核心组件。这种设计使得模型能够兼具文本理解和生成的双重能力,特别适合处理序列到序列(Seq2Seq)的转换任务。

1.2 核心特点

完整性保留:与仅使用Encoder的BERT [1] 和仅使用Decoder的GPT 不同,Encoder-Decoder架构完整保留了原始Transformer的双重结构,体现了Transformer设计的完整性。

双向处理能力:编码器进行双向编码,能够充分理解输入序列的上下文信息;解码器进行单向生成,确保生成过程的自回归特性。

序列转换专长:专门设计用于处理输入序列到输出序列的转换任务,如机器翻译、文本摘要、问答系统等。

1.3 工作原理

Encoder-Decoder模型的工作流程可以分为三个主要阶段:

  1. 编码阶段:Encoder对输入序列进行双向编码,生成包含丰富上下文信息的表示向量
  2. 解码阶段:Decoder基于编码表示和已生成的部分序列,逐步生成目标序列
  3. 交互机制:通过交叉注意力机制实现编码器和解码器之间的信息传递

2. T5模型:Encoder-Decoder架构的典型代表

2.1 T5模型概述

T5(Text-to-Text Transfer Transformer)是Google推出的Encoder-Decoder PLM的典型代表 [4][5],它体现了"大一统"的设计思想,将所有NLP任务统一为"文本到文本"的处理框架。

2.2 核心创新:Text-to-Text统一框架

T5的最大创新在于其统一的任务范式设计:

统一输入输出格式:所有任务的输入和输出都是自然语言文本,消除了不同任务间的格式差异。

任务前缀机制:通过在输入文本前添加任务描述前缀来区分不同的任务类型,例如:

  • 摘要任务:"summarize: [原文本]" → "[摘要文本]"
  • 翻译任务:"translate English to German: [英文文本]" → "[德文文本]"
  • 问答任务:"question: [问题] context: [上下文]" → "[答案]"

大一统思想的优势

  • 简化了任务处理流程,统一的输入输出格式降低了系统复杂度
  • 增强了模型的通用性,单一模型可以处理多种NLP任务
  • 便于模型微调,统一框架使得模型更容易适应新任务
  • 提高了实际应用的效率,为产业应用提供了更便捷的解决方案

3. T5详细架构分析

3.1 整体架构设计

T5模型主要由两个核心部分组成:

T5模型
├── Tokenizer部分
│   ├── 文本分词
│   ├── 编码转换
│   └── 输入格式化
└── Transformer部分
    ├── EncoderLayers
    │   └── 多个EncoderLayer Block
    └── DecoderLayers
        └── 多个DecoderLayer Block

3.2 EncoderLayer详细结构

每个EncoderLayer包含以下核心组件:

组件构成

  1. Self-Attention机制
  2. LayerNorm层(使用RMSNorm)
  3. 前馈神经网络(LayerFF)
  4. 残差连接

处理流程

输入 → LayerNorm → Self-Attention → 残差连接 → LayerNorm → LayerFF → 残差连接 → 输出

3.3 DecoderLayer详细结构

每个DecoderLayer的组件构成更为复杂:

组件构成

  1. Masked Self-Attention机制
  2. Encoder-Decoder Attention机制
  3. LayerNorm层(使用RMSNorm)
  4. 前馈神经网络(LayerFF)
  5. 残差连接

处理流程

输入 → LayerNorm → Masked Self-Attention → 残差连接 
     → LayerNorm → Encoder-Decoder Attention → 残差连接
     → LayerNorm → LayerFF → 残差连接 → 输出

3.4 Self-Attention机制解析

核心组件

  • Query、Key、Value状态计算
  • 注意力权重计算(QK^T)
  • 位置偏置(Position Bias)
  • Softmax归一化
  • 加权求和(MatMul)

计算流程

hidden_states → Query/Key/Value变换
Query × Key^T → attention_scores
attention_scores + position_bias → scaled_scores
Softmax(scaled_scores) → attention_weights
attention_weights × Value → output

4. RMSNorm技术创新

4.1 RMSNorm数学原理

T5模型采用RMSNorm替代传统的LayerNorm,这是一个重要的技术创新。RMSNorm的数学公式为:

RMSNorm(xi)=xi1n∑j=1nxj2+ϵ⋅gi\text{RMSNorm}(x_i) = \frac{x_i}{\sqrt{\frac{1}{n}\sum_{j=1}^{n}x_j^2 + \epsilon}} \cdot g_iRMSNorm(x

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值