transformer面试总结模型中BN batchNormalize LN layerNormalizer区别

最新推荐文章于 2025-08-13 16:33:09 发布

转载最新推荐文章于 2025-08-13 16:33:09 发布 · 788 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/weixin_45069761/article/details/107851875

NLP 同时被 2 个专栏收录

247 篇文章

订阅专栏

AI理论

206 篇文章

订阅专栏

本文详细探讨了Transformer模型中三种不同类型的注意力机制：Encoder的Self-Attention，Decoder的Self-Attention以及Encoder-Decoder Attention。在Encoder的Self-Attention中，Q、K、V均来自上一层Encoder的输出；Decoder的Self-Attention同样如此，但对于第一层，输入是Word Embedding和Positional Embedding的结合。而在Encoder-Decoder Attention中，Q来自Decoder上一层，而K和V来源于Encoder的输出。这些注意力机制是Transformer实现序列到序列学习的关键组件。

Transformer中的attention区别？

(1) Encoder的Self-Attention中，Q、K、V相等，他们是上一层Encoder的输出，对于第一层Encoder，他们就是Word Embedding和Positional Embedding相加得到的输入
(2) Decoder的Self-Attention 中，Q、K、V相等，它们是上一层 Decoder 的输出，对于第一层Decoder，他们就是Word Embedding和Positional Embedding相加得到的输入
(3) 在Encoder-Decoder Attention中，Q来自于上一层Decoder的输出，K和V来自于 Encoder的输出

https://blog.youkuaiyun.com/weixin_45069761/article/details/107851875

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

火星种萝卜

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Transformer面试题总结97道：涵盖核心技术与应用场景解析

08-18

内容概要：本文档《Transformer面试题总结97道.pdf》涵盖了 Transformer模型的核心概念、数学原理及其实现细节。文档详细解析了 Transformer模型的训练原理、自注意力机制、位置编码、多头注意力机制、前馈神经网络...

再思考Transformer中的Batch Normalization.pdf

03-21

自然语言处理(NLP)中神经网络模型的标准归一化方法是层归一化(LN)。这不同于计算机视觉中广泛采用的批量归一化(BN)。LN在NLP中的优先使用主要是由于经验观察，使用BN会导致NLP任务的性能显著下降;然而，对其根本原因的透彻理解并不总是显而易见的。

参与评论您还未登录，请先登录后发表或查看评论

Layer Normalization(LN) 层标准化 (为什么Transformer用LN)(手写手动实现LN)

hxxjxw的博客

09-07

2万+

CNN用BN, RNN用LN BN并不适用于RNN等动态网络和batchsize较小的时候效果不好。Layer Normalization（LN）的提出有效的解决BN的这两个问题。LN和BN不同点是归一化的维度是互相垂直的时序特征并不能用Batch Normalization，因为一个batch中的序列有长有短。此外，BN 的一个缺点是需要较大的 batchsize 才能合理估训练数据的均值和方差，这导致内存很可能不够用，同时它也很难应用在训练数据长度不同的 RNN 模型上。 ...

Transformer: Layer Normalization (LN) 和 Instance Normalization (IN)

Zzzzyc_的博客

07-13

1008

Layer Normalization 和 Instance Normalization 是深度学习中两种重要的归一化技术，它们分别在不同的任务和场景中发挥重要作用。理解和正确使用这两种归一化方法，可以显著提升模型的性能和收敛速度。

李宏毅机器学习笔记：Transformer和Normalization

qq_43711697的博客

08-30

1307

前言：本文主要记录关于李宏毅机器学习2021中Transfomer和Normalization章节的相关笔记，其中Transformer主要介绍了在NLP领域的作用而Normalization主要介绍Batch Normalization的操作。一、Normalization ① 为什么要做归一化处理先说归一化的目的或者优点：归一化的目的主要是为了让模型的收敛速度更快，对于使用梯度下降优化的模型，每次迭代会找到梯度最大的方向迭代更新模型参数。但是，如果模型的特征属性量纲不一，那么寻求最优解的特征空间

Transformer各层网络结构详解！面试必备！(附代码实现)

强化学习曾小健

02-15

2029

是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型，叫 Transformer，抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。目前大热的Bert就是基于Transformer构建的，这个模型广泛应用于NLP领域，例如机器翻译，问答系统，文本摘要和语音识别等等方向。

transformer 为什么使用 layer normalization，而不是其他的归一化方法？

m0_67769784的博客

04-12

1894

对于深度学习的很多技巧，当你实验做得足够多的时候你就会发现，这类问题的唯一正确答案是：因为实验结果显示这样做效果更好！当然，你非要想找一个像模像样的解释，其实也能尝试一下。对于Transformer为什么用LN而不是BN/IN，我估计《Attention is all you need》的作者们当时肯定没有想那么多，而是发现当时NLP中主流就是用LN，所以就跟着用了。那么，NLP为什么用LN居多呢？非要说原因，大致上是NLP的文本本质上可以看成一个时间序列，而时间序列是不定长的，长度不同的序

NLP高频面试题（四）——BN和LN的区别与联系，为什么attention要用LN

WeLearnNLP

03-18

1318

本文将深入探讨深度学习中两种广泛应用的归一化技术——Batch Normalization（BN）与Layer Normalization（LN）的区别与联系，并着重分析为什么Transformer模型中的Attention机制更加适合使用LN。通过具体的原理对比和适用场景的讨论，帮助深入理解二者在不同模型结构中的选择依据和实际作用。

Transformer面试总结（一）

cancer_s的博客

10-10

1108

然而，Transformer模型也存在一个问题：它需要大量的计算资源和内存来训练和推理。综上所述，位置编码在Transformer模型中起着至关重要的作用，它提供了关于输入序列中单词位置的信息，增强了模型的表达能力，并支持了并行计算。通过不同的编码方式（如绝对位置编码、相对位置编码和三角函数式位置编码），位置编码能够灵活地捕捉序列中单词之间的位置关系，从而提高了模型的性能。总之，Transformer模型是一个革命性的模型，它改变了深度学习领域的序列处理方式，并为多种应用提供了新的可能性。

Transformer 中为什么使用层归一化（Layer Normalization, LN）而不是批归一化（Batch Normalization, BN）？

热门推荐

Orange_sparkle的博客

09-19

2万+

如果以上的你懂看明白的话，BN你就理解的差不多了。BN层就是用在激活函数前，用来使上一层的输出，分布在均值为0，方差为1的情况下，也就是对下一层的输入做归一化的操作，这样就能够使它经过激活函数时能够有一定的梯度，从而避免值太大而进入饱和区，梯度就非常小了，不利于梯度下降。并且除了均值和方差，BN层还有自己的学习参数γ和β，网络通过学习来得到想要的数据分布，参数γ和β在训练中通过反向传播中的γ与β求得梯度，从而不断改变每个通道的γ和β参数。

第十章（4）：Transformer之Layer Normalization与Transformer整体结构

安静到无声

10-27

2098

按照顺序将要介绍Layer Normalization，谈起这个模块，就会想起CV领域比较重要BN层，被称为批归一化，它具有加快训练速度、防止过拟合等优点。可是，在NLP领域应用更为广泛的是Layer Normalization。在最后我们介绍Encoder和Deconder的整体结构。

Transformer 模型详解

Wisimer

02-20

1万+

概要目前在序列建模和转换问题中，如语言建模和机器翻译，所采用的主流框架为Encoder-Decoder框架。传统的Encoder-Decoder一般采用RNN作为主要方法，基于RNN所发展出来的LSTM和GRU也被曾认为是解决该问题最先进的方法。但是RNN的主要缺陷在于并行训练的不足。针对机器翻译问题，原论文文（Attention is all you need）提出了一种“Transforme...

LayerNorm是Transformer的最优解吗？

夕小瑶科技说

04-07

6149

一只小狐狸带你解锁炼丹术&NLP秘籍前言众所周知，无论在CV还是NLP中，深度模型都离不开归一化技术（Normalization）。在CV中，深度网络中一般会嵌入批归一化（...

transformer的组成部分_transformer问题整理（参考知乎大佬内容）

weixin_39847556的博客

11-21

620

1.Transformer为何使用多头注意力机制？（为什么不使用一个头）多头注意力直觉上的解释，其实类似cnn中的多核，关注到不同子空间的信息，捕捉到更加丰富的特征信息，当然从代码实现上不是类似于cnn的多核，因为keyi, queryi 并没有去关注其他子空间j!=i的值但目前并没有一个好的解释，https://www.zhihu.com/question/341222779，但确定的是使用一个...

Transformer模型核心技术与应用解析：97道面试题总结

特别是自注意力机制，作为Transformer区别于传统RNN/LSTM模型的核心机制，文档从数学原理、实现方式到其在信息捕捉中的作用进行了深入剖析。文档还讨论了注意力机制的物理意义，包括Attention Score的计算方式、...

transformer面试总结 模型中BN batchNormalize LN layerNormalizer区别

transformer面试总结模型中BN batchNormalize LN layerNormalizer区别