【深度学习】BatchNorm、LayerNorm

原创

已于 2024-05-14 11:14:15 修改 · 1.2w 阅读

·

34

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

于 2024-04-14 23:18:53 首次发布

本文详细介绍了BatchNorm和LayerNorm两种归一化技术的概念、作用、计算过程以及在深度学习特别是NLP中的应用。BatchNorm主要针对通道维度归一化，适用于大batch_size和CV场景，而LayerNorm则针对样本或词向量尺度归一化，更适合NLP任务，如RNN和Transformer。

一、BatchNorm

1. 概念

对一个batch内的数据在通道尺度上计算均值和方差，将同批次同通道的数据归一化为均值为0、方差为1的正态分布，最后用对归一化后的数据进行缩放和平移来还原数据本身的分布。

上图展示了大小为[3,4,2,2]的tensor（批次大小为3，通道数为4，高为2，宽为2）的BatchNorm过程，该过程是针对训练数据的且无缩放和平移。可以看出，BatchNorm是对同一批次内同一通道的所有数据进行归一化。

在训练过程中，其计算过程如下：

其中， $\mu_{\mathcal{B}}$ 和 $\sigma^2_{\mathcal{B}}$ 分别为当前批次下同一通道所有数据的均值和有偏方差， $\epsilon$ 用来防止分母为0， $\gamma$ 和 $\beta$ 是可学习的参数（通道数为 $C$ 时，两个参数在当前特征层的总量为 $2\times C$ ），用来进行仿射变换，即通过缩放和平移使数据处于更好的分布上。

由于测试过程需要稳定的输出，所以并不是按照批次计算均值和方差，而是使用整个训练样本的均值和方差（通常由滑动平均法计算），如下：

其中， $Va r [x]$ 指的是无偏方差，根据下式可以看出，将之前的有偏方差转为无偏方差乘上 $\frac{m}{m-1}$

最低0.47元/天解锁文章

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Fulin_Gao 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。