【深度学习】transfomer之Add & Norm 和 Feed Forward

最新推荐文章于 2025-02-16 10:35:29 发布

不良人大帅

最新推荐文章于 2025-02-16 10:35:29 发布

阅读量902

点赞数 2

分类专栏： NLP【深度学习】 Transfomer 文章标签：深度学习人工智能

本文链接：https://blog.youkuaiyun.com/qq_50857066/article/details/136012025

版权

NLP【深度学习】同时被 2 个专栏收录

13 篇文章

订阅专栏

Transfomer

5 篇文章

订阅专栏

本文概述了深度学习中的三个重要概念：残差连接用于增加模型深度并对抗信号衰减，Norm(Normalization)实现数据分布的规范化，而FeedForward网络通过线性变换和激活函数模拟神经元处理词向量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Add（残差连接）

在这里插入图片描述

作用：使模型卷的更深，因为模型要重复N次，Add操作充分考虑了模型复杂度，抵抗模型深度所导致输入信号的衰减，

二、Norm(Normaliation正则化)

作用：把分散的分布重新拉回到正常的分布区间之中。

在这里插入图片描述

三、Feed Forward

前馈网络（feed-forward network）是一种常见的神经网络结构，由一个或多个线性变换和非线性激活函数组成。它的输入是一个词向量，经过一系列线性变换和激活函数处理之后，输出另一个词向量。
作用：模仿神经元结构，内置两组Linear数据进行转换。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不良人大帅

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

从零实现深度学习框架——Transformer从菜鸟到高手(一)

日积月累，天道酬勤

08-02

3192

图解Transformer理论+自己动手实现Transformer！

Transformer原理与代码实战案例讲解

AI天才研究院

07-03

999

Transformer原理与代码实战案例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming / TextGenWebUILLM Transformer原理与代码实战案例讲解

1 条评论您还未登录，请先登录后发表或查看评论

【Transformer】Add & Norm的理解

weixin_54607024的博客

12-29

1321

Add & Norm 层由 Add 和 Norm 两部分组成，其计算公式如下：由图，其中表示 Multi-Head Attention 或者 Feed Forward 的输入，MultiHeadAttention() 和 FeedForward() 表示输出 (输出与输入维度是一样的，所以可以相加)。

Transformer模型-add & norm（残差连接&归一化）的简明介绍：残差连接，增加深度，不丢失初始的特征；归一化，避免梯度消失，减少运算

Ankie资深技术项目经理

04-07

3375

add&norm在transformer的每个子层都出现： add增加残差连接，可以增加深度，不丢失初始的特征。 norm归一化，因为把原始的特征加回来，避免梯度消失，减少运算，进行归一化处理。

Transformer 模型介绍（五）——归一化 Add & Norm

最新发布

金陵城中夜将沉的博客

02-16

1065

Transformer模型的编码器和解码器都由6层神经网络堆叠而成。随着网络深度的增加，梯度消失和梯度爆炸问题的风险也会增加，尤其是在深度网络的训练过程中，梯度的传播可能变得非常不稳定为了解决这些问题，归一化（Normalization）被广泛应用于深度学习模型中，尤其是层归一化（Layer Normalization），它能够有效地稳定训练过程，确保模型顺利收敛

Transformer结构解读(Multi-Head Attention、Add&Norm、Feed Forward)

m0_59113542的博客

02-10

4531

trandsformer 关于Encoder部分结构的讲解

一文彻底搞懂Transformer - Add & Norm（残差连接和层归一化）

u012374012的专栏

08-02

4534

在Transformer模型中，Add & Norm（残差连接和层归一化）是两个重要的组成部分，它们共同作用于模型的各个层中，以提高模型的训练效率和性能。网络退化：网络退化（Degradation）是深度学习中一个常见的现象，特别是在构建深层神经网络时更为显著。它指的是在网络模型可以收敛的情况下，随着网络层数的增加，网络性能先增加后迅速下降的现象。这种现象并不符合常理，因为更深的网络结构通常被认为应该表现得更好。

对Transformer中Add&Norm层的理解

一步一脚印

10-09

2万+

首先我们还是先来回顾一下Transformer的结构：Transformer结构主要分为两大部分，一是Encoder层结构，另一个则是Decoder层结构，Encoder 的输入由 Input Embedding 和 Positional Embedding 求和输入Multi-Head-Attention，再通过Feed Forward进行输出。

李宏毅机器学习笔记——Transformer

m0_56659208的博客

04-09

5229

李宏毅机器学习笔记本章主要是介绍了Transformer(全自注意力网络)： 1. 通过sequence-to-sequence模型中的RNN存在问题——不能并行计算，CNN替换可以解决一部分问题，但也存在缺陷。 2.由CNN缺陷引入了Self-Attention Layer来替代RNN的sequence-to-sequence模型——Transformer。 3.讲解Self-Attention的基本原理与具体过程。 4.讲解了一种叫做“多头”注意力（“multi-headed” attention）的

【深度学习】BERT是什么？怎么玩的？

~yzzheng～的博客

05-01

986

BERT 模型的详细介绍

深度学习与神经网络4

qq_45834558的博客

04-26

854

基于Transformer模型的Encoder-Decoder模型示意图左侧为Transfomer的Encoder block，右侧为Decoder block，红圈中的部分为Multi-Head Attention，是由多个 Self-Attention组成的，可以看到 Encoder block 包含一个 Multi-Head Attention，而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。

Transformer中的 Add Norm

二分掌柜的

03-08

1071

flyfish

【深度学习】如何理解以add的方式融合特征

Shwan_ma的博客

12-30

7588

在各个网络模型中，ResNet，FPN等采用的element-wise add来融合特征，而DenseNet等则采用concat来融合特征。那add与concat形式有什么不同呢？事实上两者都可以理解为整合特征图信息。只不过concat比较直观，而add理解起来比较生涩。 add与concat的特征融合形式从图中可以发现，concat每个通道对应着对应的卷积核。而add形式则将对应的特征...

难道这是残差结构的本质（addnorm）

东方佑

11-25

1046

如图所示，就是残差结构的本质也就是add norm 的本质为什么这么说呢，就是为了不同顺序的多个数进行连续这个操作后就会编码为不同的数在整个数轴上，但是这样层数越多就会特别大所以使用norm 同时也，能让一个序列中两个不同元素颠倒位置编码就和以前不一样，为就是让，序列在算数上也是序列化的而不是 123=231 本质是解决普通运算，序列顺序无法区分，而此操作是把序列顺序编码为不同的码，如果每个序列的距离都会有特定的距离是最好的。 ...

（一）Transformer之Add&Norm

weixin_63103678的博客

08-08

1043

self.ones_tensor = nn.Parameter(torch.ones(x_size)) # 按照特征向量大小返回一个全1的张量，并且转换成可训练的parameter类型。self.ones_tensor = nn.Parameter(torch.ones(x_size)) # 按照特征向量大小返回一个全1的张量，并且转换成可训练的parameter类型。sublayer(x):上一层的输出,即Self-Attention层的输出(sublayer需要手动指定传递到底是哪一层的输出)

深度学习学习笔记(二)

云舒的博客

02-17

6779

（一）过拟合欠拟合及其解决方案训练误差和泛化误差在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数...

Self-Attention机制的计算详解

热门推荐

qq_41915623的博客

06-07

2万+

个人理解，就是对参数进行“加权求和”。其中，XXX表示输入的数据，Q,K,VQ,K,VQ,K,V对应内容如图，其值都是通过XXX和超参（先初始化，后通过训练优化）进行矩阵运算得来的。结合代码进行理解：Step1：初始化WQ,WK,WVW^Q , W^K,W^VWQ,WK,WV矩阵假设三种操作的输入都是同等维度的矩阵，这里每个特征维度都是768.即三者的维度： WQ.shape=[768,768]WK.shape=[768,768]WV.shape=[768,768] W^Q.sh

《动手学深度学习PyTorch版》4

浮汐潇潇

02-18

1726

transfomer decoder

02-06

### Transformer 解码器架构与实现 #### 解码器整体结构概述解码器作为Transformer模型的一部分，在处理序列数据时起着至关重要的作用。其设计旨在接收编码器产生的上下文信息并逐步构建目标序列[^2]。 #### 输入准备初始阶段，对于解码器而言，输入通常由两部分组成：一是来自前一时刻预测词的嵌入表示；二是经过位置编码后的这些向量。值得注意的是，在训练初期，当不存在先前时间步的结果时，则采用全零张量作为占位符[tgt]，这有助于启动整个网络的工作流程[^4]。 #### 多头自注意力机制为了捕捉不同位置之间的关系，解码器内部集成了多头自注意层。该组件允许模型关注同一句话内各个单词间复杂的依赖模式。具体来说，通过线性变换得到查询(Query)、键(Keys) 和值(Values)，再经softmax函数计算权重分布，最后加权求和获得新的特征表达形式。此过程重复多次形成多个平行视图——即所谓的“头部”，从而增强表征能力[^1]。 #### 编码-解码交互模块除了自我感知外，还需要引入跨域关联操作来融合源语句提供的背景线索。为此特别设置了另一个基于注意力原理构造的子单元，它接受来自编码器的记忆(memory)作为额外输入，并据此调整当前正在生成的目标片段的状态更新逻辑。 #### 防止未来信息泄露考虑到因果顺序的重要性，即不允许后续元素影响前面已决定的内容，因此在实际部署中会对某些连接施加掩蔽(masking)策略。简单理解就是屏蔽掉那些不应该被看见的部分，确保每一步只依据已有知识推进下一步骤的选择[^3]。 #### 实现示例下面给出一段简化版Python代码用于说明上述概念： ```python import torch.nn as nn class DecoderLayer(nn.Module): def __init__(self, d_model=512, nhead=8, dim_feedforward=2048, dropout=0.1): super().__init__() self.self_attn = nn.MultiheadAttention(d_model, nhead, dropout=dropout) self.multihead_attn = nn.MultiheadAttention(d_model, nhead, dropout=dropout) self.linear1 = nn.Linear(d_model, dim_feedforward) self.dropout = nn.Dropout(dropout) self.linear2 = nn.Linear(dim_feedforward, d_model) self.norm1 = nn.LayerNorm(d_model) self.norm2 = nn.LayerNorm(d_model) self.norm3 = nn.LayerNorm(d_model) def forward(self, tgt, memory, tgt_mask=None, memory_mask=None, tgt_key_padding_mask=None, memory_key_padding_mask=None): # Self-attention over target sequence tgt2 = self.self_attn(tgt, tgt, tgt, attn_mask=tgt_mask)[0] # Add & Norm after first sublayer tgt = self.norm1(tgt + tgt2) # Cross-attention between encoder output and current state of decoder tgt2 = self.multihead_attn(query=tgt, key=memory, value=memory, attn_mask=memory_mask)[0] # Second add & norm operation tgt = self.norm2(tgt + tgt2) # Feed-forward network followed by final normalization step out = self.linear2(self.dropout(F.relu(self.linear1(tgt)))) return self.norm3(out + tgt) ```