Encoder-Decoder架构的基石：序列到序列（Seq2Seq）架构

原创已于 2025-12-13 16:51:55 修改 · 484 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习

于 2025-12-13 16:46:02 首次发布

NLP基础专栏收录该内容

5 篇文章

订阅专栏

文章目录

一、经典架构：编码器-解码器（Encoder-Decoder）
二、Seq2Seq的训练目标

序列到序列（Sequence-to-Sequence，简称Seq2Seq）是一种用于处理输入序列到输出序列映射的神经网络架构，由Google团队在2014年提出（论文《Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation》）。

核心思想：将可变长度的输入序列转换为固定长度的"上下文向量"，再基于该向量生成可变长度的输出序列，适用于机器翻译、文本摘要、对话系统等场景。

Seq2Seq（序列到序列）架构是自然语言处理（NLP）领域中处理不等长序列映射任务的核心基础架构，奠定了现代序列生成类任务的技术框架，在 NLP 发展历程中起到承上启下的关键作用 —— 它既突破了传统模型的局限，又成为后续顶尖预训练模型的架构雏形。

一、经典架构：编码器-解码器（Encoder-Decoder）

在这里插入图片描述

1. 编码器（Encoder）

**功能：**将输入序列（如"我爱机器学习"）编码为一个固定长度的上下文向量（Context Vector），捕捉输入序列的全局信息。
**结构：**通常采用循环神经网络（RNN）及其变体（LSTM、GRU），处理步骤如下：

输入序列按时间步依次输入编码器（如"我"→"爱"→"机器学习"）；
每个时间步的隐藏状态基于当前输入和上一时间步隐藏状态更新；
最终输出编码器的最后一个时间步隐藏状态作为上下文向量（代表对输入序列的"理解"）。

在这里插入图片描述

2. 解码器（Decoder）

功能： 以编码器生成的上下文向量为初始输入，逐步生成输出序列（如"I love machine learning"）。
结构： 同样基于RNN/LSTM/GRU，生成步骤如下：

初始隐藏状态设为编码器输出的上下文向量；
第一个输入通常为特殊符号（如），生成第一个输出词；
将上一时间步的输出作为当前时间步的输入，结合隐藏状态更新，直到生成结束符号（如）。

在这里插入图片描述

3. 关键组件：循环神经网络变体

经典Seq2Seq中，编码器和解码器多采用LSTM（长短期记忆网络）或GRU（门控循环单元），解决传统RNN的"梯度消失/爆炸"问题，更好捕捉长序列依赖。

在这里插入图片描述

二、Seq2Seq的训练目标

Seq2Seq模型的训练核心就是学习编码器和解码器中的权重参数。

训练目标
Seq2Seq模型的训练目标是最大化给定输入序列 ( X ) 下输出序列 ( Y ) 的条件概率 ( P(Y|X) )。通常使用交叉熵损失函数，通过最小化预测序列与真实序列之间的差异来优化模型参数。
可训练参数范围
Seq2Seq模型的可训练参数主要包括两部分：

（1）编码器的权重参数

对于RNN/LSTM/GRU编码器：
- 输入到隐藏层的权重矩阵（如 ( W_{xh} )、( W_{xf} )、( W_{xi} ) 等）
- 隐藏层到隐藏层的权重矩阵（如 ( W_{hh} )、( W_{hf} )、( W_{hi} ) 等）
- 偏置项（如 ( b_h )、( b_f )、( b_i ) 等）

（2）解码器的权重参数