Transformer中的Encoder、Decoder

最新推荐文章于 2025-10-20 00:27:35 发布

原创最新推荐文章于 2025-10-20 00:27:35 发布 · 3.4k 阅读

21 ·

CC 4.0 BY-SA版权

深度学习同时被 3 个专栏收录

2 篇文章

订阅专栏

NLP

1 篇文章

订阅专栏

Seq2Seq

1 篇文章

订阅专栏

一、Transformer博客推荐

Transformer源于谷歌公司2017年发表的文章Attention is all you need,Jay Alammar在博客上对文章做了很好的总结：
英文版：The Illustrated Transformer

优快云上又博主（于建民）对其进行了很好的中文翻译：
中文版：The Illustrated Transformer【译】

Google AI blog写的一篇简述可以作为科普文：
Transformer: A Novel Neural Network Architecture for Language Understanding

李宏毅老师的Transformer课程

二、Transformer的Encoder

关于Encoder的相关细节，Miguel Romero Calvo的总结博客如下：
Dissecting BERT Part 1: The Encoder

三、Transformer的Decoder

关于Decoder的相关细节(包括如何将Encoder的输入利用到Decoder端)，Miguel Romero Calvo的总结博客如下：
Dissecting BERT Appendix: The Decoder

四、Transformer结构及其应用–BERT、GPT

知乎的Ph0en1x在文章中介绍得不错Transformer结构及其应用详解–GPT、BERT、MT-DNN、GPT-2

五、Transformer中的Masked

Trnsformer中的三种Mask详解可以参考如下博文：
Transformer的矩阵维度分析和Mask详解

知乎文章在结尾部分对Padding Mask and Sequence mask进行了简要的介绍。

六、Transformer实现代码

Tensorflow实现：A TensorFlow Implementation of the Transformer

Pytorch实现：Facebook AI Research Sequence-to-Sequence

Harvardnlp: The Annotated Transformer

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

木木舟Lorenzo

关注关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Transformer模型中，Encoder（编码器）和Decoder（解码器）

ZJQ的博客

11-03

634

假设输入文本为：“Transformer模型在自然语言处理领域取得了显著成果，其核心在于Encoder和Decoder的协同工作。Encoder负责编码输入信息，而Decoder则负责生成输出信息。Encoder处理Encoder将输入文本转换为一系列隐藏向量，这些向量捕捉了文本中的关键信息，如“Transformer模型”、“自然语言处理领域”、“Encoder和Decoder的协同工作”等。Decoder生成摘要Decoder开始生成摘要文本。

Transformer架构原理详解：编码器（Encoder）和解码器（Decoder）

AI大模型应用之禅

12-24

1911

Transformer, 编码器, 解码器, 自注意力机制, 多头注意力, 位置编码, 序列到序列, 自然语言处理 1. 背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transfo

参与评论您还未登录，请先登录后发表或查看评论

【Transformer系列（1）】encoder（编码器）和decoder（解码器）

最新发布

zdx3456789的博客

10-20

1147

本文介绍了Transformer模型中关键组件的实现改进，主要包括：1）修改MyMultiHeadAttention类以支持Encode和Decode层的不同输入需求（q来自Decode，k/v来自Encode）；2）Encode模块通过堆叠多个EncodeBlock处理输入序列；3）Decode模块利用Encode输出作为k/v输入，并采用右移目标序列实现自回归生成。代码实现了嵌入层、位置编码和注意力机制等核心组件，支持序列到序列的Transformer架构。

Transformer 模型介绍（四）——编码器 Encoder 和解码器 Decoder

金陵城中夜将沉的博客

02-16

6873

上篇中讲完了自注意力机制 Self-Attention 和多头注意力机制 Multi-Head Attention，这是 Transformer 核心组成部分之一，在此基础上，进一步展开讲一下编码器-解码器结构（Encoder-Decoder Architecture）

transformer中Encoder、Decoder

qq_35627757的博客

10-07

699

Encoder结构图 Encode层处理过程右上角部分为左上角省略号部分的内容 Decoder结构图 AT Decoder 一个一个output NAT Decoder 连续并行，一次output Cross Attention model Decoder生成Q，encoder生成K和V，输入到Cross Attention model。 ...

Transformer 系列三：Encoder编码器和Decoder解码器

weixin_44174227的博客

08-29

1万+

Transformer使用了"Encoder-Decoder" 编码器-解码器的结构，这种结构被广泛应用于处理序列到序列（seq2seq）的学习任务中。这种结构由编码器和解码器两大部分组成，编码（encoding）是一个模式提取的过程，将输入句子的特征提取出来，存储在一个中间隐状态空间（hidden state）；而解码（decoding）则是将encoder提取出来的特征进行重建，解码成为我们期望的输出。如翻译任务：将输入的英语经过编码器编码成中间表示，再使用解码器将这个中间表示解码成中文。

Transformer中的Encoder与Decoder内容

qq_41878154的博客

08-30

1102

与自注意力不同，多头注意力机制的输入向量为整个序列内容，通过多个不同的头，对整个序列内容的升纬操作创建了多个不同的W^Q、W^K、W^V，这个过程中的计算方法与自注意力中的计算方法是完全相同的，而后每个W^Q、W^K、W^V都经过注意力函数的计算的到最后的输出z_i,整合所有头的z就可以得到最后多头注意力的输出。这样就做到了”遮蔽未来位置“的作用。在Transformer的decoder中需要注意的是在不同任务中使用的K、V是由encoder最后的输出线性变换得到的，decoder提供最后的Q的输入。

Transformer架构解析：Encoder与Decoder核心差异、生成式解码技术详解

06-06

2188

本文系统解析Transformer架构中Encoder与Decoder的核心差异： Encoder：全局无掩码自注意力，专注输入序列特征提取（如BERT），适用理解类任务； Decoder：带因果掩码的自回归生成，逐步预测下一词（如GPT），适配文本生成场景；解码技术：搜索策略：贪心解码（高效但单调）、束搜索（全局优化但保守）；采样策略：Top-k/Top-p动态截断概率分布，结合温度系数调控随机性，平衡生成质量与多样性；惩罚机制：重复惩罚、长度惩罚提升生成合理性。

transformer中encoder-decoder实现步骤拆分

02-21

transformer中encoder-decoder实现步骤拆分

Transformer编码器-解码器（Encoder-Decoder）架构介绍+代码实现

weixin_41686431的博客

03-26

7776

Transformer的编码器-解码器是基于自注意力的模块叠加而成的，源序列（Input）和目标序列（Target）的嵌入（Embedding）表示将加上位置编码（Positional encoding）,再分别输入到编码器和解码器中。从宏观角度来看，Transformer的编码器是由多个相同的层叠加而成的，每个层都有两个子层（子层表示为sublayer第一个子层是多头自注意力（汇聚；第二个子层是基于位置的前馈网络（具体来说，在计算编码器的自注意力时，查询、键和值都来自前一个编码器层的输出，

人人都能听懂的大白话 Transformer 技术原理

musicml的博客

02-14

2012

▼最近直播超级多，预约保你有收获今晚直播：《开发框架应用案例实战》—1—Transformer 网络架构剖析几乎所有主流的大模型都是基于 Transformer 网络架构构建的，Transformer 的重要性不言而喻。大模型可以类比人类的大脑，那么 Transformer 就可以类比人类大脑中的神经网络结构。Transformer 网络结构最核心的组成部分为：编码器（Encoder）和解码器（...

一文Transformer原理详解：Transformer模型框架、编码器（Encoder)、解码器（Decoder)

m0_56255097的博客

03-14

3648

主要由编码器（Encoder）和解码器（Decoder）两部分组成Encoder将输入转化为固定维度的向量，由多个相同的层组成。每层有两个子层，分别是自注意力层（Self-Attention Layer）和前馈全连接层（Feedforward Layer）。其中，自注意力层通过计算输入的每个元素与其他元素的注意力分数来捕捉元素之间的长程依赖关系；而前馈全连接层将每个元素映射到另一个向量空间以捕捉更高级别的特征。

Transformer Encoder 与 Decoder：从结构到功能的深度解析

qq_45464126的博客

08-08

895

本文深入解析了Transformer架构中Encoder与Decoder的分工与差异。Encoder通过双向自注意力机制全局理解输入序列，生成富含语义的上下文表示，适用于文本分类等理解型任务；Decoder采用掩码自注意力和编码器-解码器注意力，实现自回归生成目标序列，擅长机器翻译等生成型任务。两者通过残差连接和层归一化优化训练，核心差异源于"理解"与"生成"的不同功能目标。典型模型如BERT（纯Encoder）和GPT（纯Decoder）体现了这种分工优势，而Tra

Transformer-Encoder & Decoder细节详解（以DETR为例）

认真努力，做一只会飞的毛毛虫。

01-08

9987

由于很多知识网上都可以查到，大的篇幅不会讲Self Attention，本节将围绕以下细节作以分析：Add操作及目的、Norm操作及目的、不用Norm可不可以、为什么将BN不用于transformer任务、Feed Forward操作目的。 Encoder分解之Add & Norm Add操作：Add在Encoder中是一种残差连接，指X+ Multi-Head Self-Attention(X) 和 X+ Feed Forward(X)。其ResNet 所用的是相同结构。为了能够相...

transformer的Encoder和decoder的输入

咖乐部

02-18

6180

1.Encoder的输入：enc_inputs 其一：用来生成Encoder自注意的mask，其二：在多头自注意中计算Q、K、V矩阵 2.decoder的输入：dec_inputs,enc_inputs,enc_outputs dec_inputs：其一，用来生成decoder自注意的mask矩阵。其二，计算decoder的多头自注意层的Q、K、V矩阵。 enc_inputs：用来生成decoder中编码-解码层的mask矩阵，避免受Encoder输入中padding的影响。 enc_output

transformer : encoder & decoder

鑫的博客

05-05

359

深度学习transformer，解析encoder和decorder。

【速写】Transformer-encoder-decoder深度解析

梦想破三的奔三狗

04-05

1万+

温故而知新

transformer的encoder decoder是怎么构建的

09-30

<think>嗯，用户想了解Transformer的encoder和decoder的构建方法。这个问题非常有针对性，说明用户已经对Transformer有了基本认知，现在想深入实现细节。从引用内容看，用户提供的资料已经涵盖了架构差异、代码片段和典型应用，我需要系统梳理这些信息。用户可能正在学习Transformer的代码实现，或者需要对照理论理解实际模块设计。特别注意用户引用的第三篇提到两个关键差异：decoder的mask机制和模块连接方式，第四篇则提到PyTorch的register_buffer技巧，这些都是实操重点。首先需要区分encoder和decoder的结构共性：它们都包含多头注意力和前馈网络，但decoder多了一层encoder-decoder attention。用户引用的代码片段显示decoder有三个子层，而encoder只有两个，这个细节必须强调。关于mask机制，decoder的自注意力层需要防止看到未来信息，所以引用[3]特别提到requires_mask=True这个实现开关。位置编码部分，引用[4]提醒我们用register_buffer保存，这点在PyTorch实现中很重要——不过用户没问框架细节，可以简略带过。注意到用户上次回答要求"结构清晰"，这次我会拆解为三个层面：基础模块、组合方式、特殊处理。代码示例保留Python但简化变量名，因为引用[3]的config对象可能让初学者困惑。典型模型引用(BERT/GPT)能帮助用户关联实际应用。突然想到，用户没问训练细节(如teacher forcing)，所以暂时聚焦架构。但相关问题里可以加入位置编码的实现技巧，因为引用[4]提到这点值得展开。 </think>Transformer 的 Encoder 和 Decoder 采用**堆叠的相同层结构**，但在具体模块组成和功能实现上存在关键差异。以下是核心构建方法： --- ### **1. Encoder 构建** #### **核心组件（单层）** 1. **多头自注意力层（Multi-Head Self-Attention）** - **作用**：捕捉输入序列内部各位置的依赖关系（如上下文语义）。 - **公式**： $$ \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$ 其中 $Q,K,V$ 均为输入序列的线性变换结果。 2. **前馈神经网络层（Feed-Forward Network, FFN）** - **结构**：两层全连接层 + ReLU 激活函数（例如：$ \text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2 $）。 - **作用**：对注意力输出进行非线性变换。 3. **残差连接与层归一化（Add & Norm）** - 每个子层（注意力/FFN）后执行： $$ \text{Output} = \text{LayerNorm}(x + \text{Sublayer}(x)) $$ #### **整体结构** - 由 **$N$ 个相同的层**堆叠而成（通常 $N=6$ 或 $12$）。 - **输入**：词嵌入向量 + 位置编码（Positional Encoding）。 - **输出**：上下文相关的语义表示（每个 token 的向量）。 > **代码片段（PyTorch 风格）** > ```python > class EncoderLayer(nn.Module): > def __init__(self, d_model, n_heads, d_ff, dropout): > super().__init__() > self.self_attn = MultiHeadAttention(d_model, n_heads) # 多头自注意力 > self.ffn = PositionwiseFFN(d_model, d_ff) # 前馈网络 > self.norm1 = nn.LayerNorm(d_model) > self.norm2 = nn.LayerNorm(d_model) > self.dropout = nn.Dropout(dropout) > > def forward(self, x, mask): > # 自注意力 + 残差连接 & 归一化 > attn_output = self.self_attn(x, x, x, mask) # Q=K=V=x > x = x + self.dropout(attn_output) > x = self.norm1(x) > > # 前馈网络 + 残差连接 & 归一化 > ffn_output = self.ffn(x) > x = x + self.dropout(ffn_output) > x = self.norm2(x) > return x > ``` --- ### **2. Decoder 构建** #### **核心组件（单层）** 1. **掩码多头自注意力层（Masked Multi-Head Self-Attention）** - **作用**：确保预测时仅依赖已生成的部分（防止信息泄露）。 - **实现**：在注意力权重计算时添加下三角掩码矩阵（$ -\infty $ 屏蔽未来位置）。 2. **编码器-解码器注意力层（Encoder-Decoder Attention）** - **作用**：融合 Encoder 输出的语义表示。 - **输入**： - $Q$：来自 Decoder 上一层的输出 - $K, V$：来自 Encoder 的最终输出 3. **前馈网络层（FFN）**：与 Encoder 相同。 4. **残差连接与层归一化（Add & Norm）** - 在 **三个子层**（掩码自注意力、交叉注意力、FFN）后均执行。 #### **整体结构** - 由 **$N$ 个相同的层**堆叠。 - **输入**： - 目标序列的词嵌入 + 位置编码（训练时使用完整序列，预测时自回归生成）。 - **输出**：下一个 token 的预测概率分布。 > **代码片段（PyTorch 风格）** > ```python > class DecoderLayer(nn.Module): > def __init__(self, d_model, n_heads, d_ff, dropout): > super().__init__() > self.self_attn = MultiHeadAttention(d_model, n_heads) # 掩码自注意力（需传入掩码） > self.cross_attn = MultiHeadAttention(d_model, n_heads) # 编码器-解码器注意力 > self.ffn = PositionwiseFFN(d_model, d_ff) > self.norm1 = nn.LayerNorm(d_model) > self.norm2 = nn.LayerNorm(d_model) > self.norm3 = nn.LayerNorm(d_model) > self.dropout = nn.Dropout(dropout) > > def forward(self, x, enc_output, tgt_mask, src_mask): > # 掩码自注意力 + 残差归一化 > self_attn_output = self.self_attn(x, x, x, tgt_mask) # 使用目标序列掩码 > x = x + self.dropout(self_attn_output) > x = self.norm1(x) > > # 编码器-解码器注意力 + 残差归一化 > cross_attn_output = self.cross_attn(x, enc_output, enc_output, src_mask) # Q=x, K=V=enc_output > x = x + self.dropout(cross_attn_output) > x = self.norm2(x) > > # 前馈网络 + 残差归一化 > ffn_output = self.ffn(x) > x = x + self.dropout(ffn_output) > x = self.norm3(x) > return x > ``` --- ### **关键差异总结** | **组件** | Encoder | Decoder | |------------------------|----------------------------------|----------------------------------| | **注意力类型** | 自注意力 | 掩码自注意力 + 编码器-解码器注意力 | | **输入来源** | 原始输入序列 | 目标序列 + Encoder 输出 | | **掩码要求** | 仅填充掩码（Padding Mask） | 填充掩码 + 序列掩码（未来屏蔽） | | **子层数量（每层）** | 2（自注意力 + FFN） | 3（掩码自注意力 + 交叉注意力 + FFN）| | **典型应用** | BERT（纯 Encoder）[^1] | GPT（纯 Decoder）[^1] | --- ### **附加说明** - **位置编码**：通过 $\sin/\cos$ 函数或可学习参数生成，使用 `register_buffer` 在 PyTorch 中注册为非参数张量[^4]。 - **层堆叠**：$N$ 层 Encoder/Decoder 的输出通过 **残差连接** 传递，缓解梯度消失问题。 - **纯架构变体**： - *纯 Encoder*（如 BERT）：仅需移除 Decoder 部分。 - *纯 Decoder*（如 GPT）：移除 Encoder 及交叉注意力层，保留掩码自注意力[^1][^2]。