Layer Normalization 与 Batch Normalization 的区别

只说处理
  • 标准化的维度

    • Batch Normalization 是在批次的维度上进行标准化,通常是在每个特征的维度上(也就是每列数据),即通过计算一个批次中每个特征的均值和方差来进行标准化。
    • Layer Normalization 是在每个样本的特征维度上进行标准化。它会计算一个样本(即一个数据点)中所有特征的均值和方差,然后对该样本进行标准化。这意味着,标准化的范围是整一层(或者说整个样本的特征向量)。
  • 计算方法

    • Batch Normalization 对每个特征(列)进行标准化,计算的是该特征在整个批次中的均值和方差。
    • Layer Normalization 对每个样本的所有特征进行标准化,计算的是该样本的所有特征的均值和方差。
  • 简单理解Batch Normalization 在列进行标准化,Layer Normalization 在行进行标准化

举例:

假设我们有一个 3 个样本,每个样本有 4 个特征的数据集,表示为一个 3\times 4的矩阵

X = [[1.0, 2.0, 3.0, 4.0],
     [2.0, 3.0, 4.0, 5.0],
     [3.0, 4.0, 5.0, 6.0]]
 

Layer Normalization(行):

计算行,均值,标准差:

均值方差标准差(约等于)
第一行2.51.251.118
第二行3.51.251.118
第三行4.51.251.118

标准化公式:

\hat{x}=\frac{x-\mu }{\sigma }

结果:

[[ -1.342, -0.447,  0.447,  1.342],
 [ -1.342, -0.447,  0.447,  1.342],
 [ -1.342, -0.447,  0.447,  1.342]]
 

Batch Normalization (列):

计算列,均值,标准差:

第一列第二列第三列第四列
均值2.03.04.05.0
方差0.66670.66670.66670.6667
标准差(约等于)0.81650.81650.81650.8165

标准化公式:

\hat{x}=\frac{x-\mu }{\sigma }

结果:

[[-1.2247, -1.2247, -1.2247, -1.2247],
 [ 0.0000,  0.0000,  0.0000,  0.0000],
 [ 1.2247,  1.2247,  1.2247,  1.2247]]
 

虽然结果上他们整体都服从均值为0方差为一的分布,但是由于处理的方式的不同,对于不同的情况不同的方式会有更好的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值