只说处理
-
标准化的维度:
- Batch Normalization 是在批次的维度上进行标准化,通常是在每个特征的维度上(也就是每列数据),即通过计算一个批次中每个特征的均值和方差来进行标准化。
- Layer Normalization 是在每个样本的特征维度上进行标准化。它会计算一个样本(即一个数据点)中所有特征的均值和方差,然后对该样本进行标准化。这意味着,标准化的范围是整一层(或者说整个样本的特征向量)。
-
计算方法:
- Batch Normalization 对每个特征(列)进行标准化,计算的是该特征在整个批次中的均值和方差。
- Layer Normalization 对每个样本的所有特征进行标准化,计算的是该样本的所有特征的均值和方差。
- 简单理解Batch Normalization 在列进行标准化,Layer Normalization 在行进行标准化
举例:
假设我们有一个 3 个样本,每个样本有 4 个特征的数据集,表示为一个 的矩阵
X = [[1.0, 2.0, 3.0, 4.0],
[2.0, 3.0, 4.0, 5.0],
[3.0, 4.0, 5.0, 6.0]]
Layer Normalization(行):
计算行,均值,标准差:
均值 | 方差 | 标准差(约等于) | |
第一行 | 2.5 | 1.25 | 1.118 |
第二行 | 3.5 | 1.25 | 1.118 |
第三行 | 4.5 | 1.25 | 1.118 |
标准化公式:
结果:
[[ -1.342, -0.447, 0.447, 1.342],
[ -1.342, -0.447, 0.447, 1.342],
[ -1.342, -0.447, 0.447, 1.342]]
Batch Normalization (列):
计算列,均值,标准差:
第一列 | 第二列 | 第三列 | 第四列 | |
均值 | 2.0 | 3.0 | 4.0 | 5.0 |
方差 | 0.6667 | 0.6667 | 0.6667 | 0.6667 |
标准差(约等于) | 0.8165 | 0.8165 | 0.8165 | 0.8165 |
标准化公式:
结果:
[[-1.2247, -1.2247, -1.2247, -1.2247],
[ 0.0000, 0.0000, 0.0000, 0.0000],
[ 1.2247, 1.2247, 1.2247, 1.2247]]
虽然结果上他们整体都服从均值为0方差为一的分布,但是由于处理的方式的不同,对于不同的情况不同的方式会有更好的效果。