28 批量归一化 [动手学深度学习v2]-优快云博客

本文链接：https://blog.youkuaiyun.com/gpx33333/article/details/121717427

为什么需要批量归一化？
- 损失出现在最后，后面的层训练比较快【梯度大】；
- 数据在最底部，底部的层训练较慢【梯度小】；
- 底部层一变化，所有都得跟着变，最后的那些层需要重新学习很多次，导致收敛变慢【底层尝试抽取一些很底层的特征，比如局部、边缘、很简单的纹理信息】。
- 我们可以再学习底部层的时候避免变化顶部层吗？这就是批量归一化要考虑的问题。
批量归一化

固定小批量里面的均值和方差
$\mu_{B}=\frac{1}{|B|} \sum_{i \in B} x_{i} \text { and } \sigma_{B}^{2}=\frac{1}{|B|} \sum_{i \in B}\left(x_{i}-\mu_{B}\right)^{2}+\epsilon$

然后再做额外的调整（可学习的参数）
$x_{i+1}=\gamma \frac{x_{i}-\mu_{B}}{\sigma_{B}}+\beta$
批量归一化层
1. 可学习的参数为 $\gamma$ （方差）和 $\beta$ （均值）；
2. 作用在：全连接层和卷积层输出上，激活函数前；全连接层和卷积层输入上；
3. 对全连接层，作用在特征维；对于卷积层，作用在通道维。
批量归一化在做什么？
- 最初论文是想用它来减少内部协变量转移
- 后续有论文指出它可能就是通过在每个小批量里加入噪音（ $\hat{\mu}_B, \hat{\sigma}_B$ ）来控制模型复杂度
  $x_{i+1}=\gamma \frac{x_{i}-\hat{\mu}_{B}}{\hat{\sigma}_{B}}+\beta$
  因此没必要跟丢弃法混合使用
批量归一化可以加快收敛速度【可以调大学习率】，但一般不改变模型精度。

代码实现

import torch
from torch import nn

def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):
    if not torch.is_grad_enabled():
        X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)
    else:
        assert len(X.shape) in (2, 4)
        if len(X.shape) == 2:
            mean = X.mean(dim=0)
            var = ((X - mean)**2).mean(dim=0)
        else:
            mean = X.mean(dim=(0, 2, 3), keepdim=True) # 1xBx1x1的tensor，按通道数求均值
            var = ((X - mean)**2).mean(dim=(0, 2, 3)， keepdim=True)
        X_hat = (X - mean) / torch.sqrt(var + eps)
        moving_mean = momentum * moving_mean +(1.0 - momentum) * mean
        moving_var = momentum * moving_var + (1.0 - momentum) * var
    Y = gamma * X_hat + beta
    return Y, moving_mean.data, moving_var.data


class BatchNorm(nn.Module)：
	def __init__(self, num_features, num_dims):
        super().__init__()
        if num_dims == 2:
            shape = (1, num_features)
        else:
            shape = (1, num_features, 1, 1)
        self.gamma = nn.Parameter(torch.ones(shape))
        self.beta = nn.Parameter(torch.zeros(shape))
        self.moving_mean = torch.zeros(shape)
        self.moving_var = torch.ones(shape)
    
    def forward(self, X):
        if self.moving_mean.device != X.device:
            self.moving_mean = self.moving_mean.to(X.device)
            self.moving_var = self.moving_var.to(X.device)
        Y, self.moving_mean, self.moving_var = batch_norm(X, self.gamma, self.beta, self.moving_mean, self.moving_var, eps=1e-5, momentum=0.9)
        return Y