BatchNorm论文阅读笔记

前言

    BatchNorm作为深度学习训练的一个大杀器,重要性还是不言而喻的。最近学习了一下BatchNorm的论文,简单记录一下以便复习。论文中的好多公式推导都没看明白,只能结合吴恩达深度学习的讲解,写一些感性上的认识吧。下面这篇博客讲的很好,我就在它的基础上补充一下好了。
  深入理解Batch Normalization批标准化
  BatchNorm论文下载传送门

BatchNorm论文阅读笔记

Abstract

    在训练的时候,由于前面层的权重更新,后面每一层的输入的分布会发生变化,这导致训练深度神经网络非常困难。需要设置较小的学习率和一定的权重初始化方法来应对这个问题。我们将这种现象称为internal covariate shift。我们提出了一种归一化方法,将这种方法整合到网络结构中,并在训练时每个mini-batch上进行归一化,来解决这个问题。BatchNorm可以使我们在训练时使用更大的学习率,并且网络初始化方法不需要像以前那样很careful,并具有一定的正则化效应。

为什么用BatchNorm

    前面网络的参数发生微小的变化,都会随着网络深度的增加而不断放大,导致对后面层的训练产生很大影响。
  网络的中间层的输入发生变化,导致这些发生变化的层在训练的时候需要不断地适应新的数据分布。

具体做法

    在训练时,对需要进行BatchNorm的层做如下操作:

虽然给定的引用未涉及ResNet论文的精读内容、翻译、学习笔记及PyTorch代码复现相关信息,但下面为你提供关于ResNet论文的一些通用信息。 ### ResNet论文翻译 ResNet(Deep Residual Learning for Image Recognition)是何恺明等人在2015年发表于CVPR的论文论文核心是提出了残差块(Residual Block)的概念来解决深度神经网络中的梯度消失和梯度爆炸问题。 例如残差块的基本公式 $y = F(x) + x$,其中 $x$ 是输入,$F(x)$ 是残差函数,$y$ 是输出。在翻译中,“Deep Residual Learning for Image Recognition”可译为“用于图像识别的深度残差学习” 。 ### 学习笔记 - **背景**:传统的深度神经网络在增加网络深度时,会出现训练误差和测试误差增大的情况,即退化问题。ResNet提出残差学习的方法解决该问题。 - **残差块**:通过引入跳跃连接(skip connection),使得网络可以学习残差映射。残差块可以更容易地学习到恒等映射,让网络专注于学习输入和输出之间的差异。 - **网络结构**:ResNet有不同的版本,如ResNet18、ResNet34、ResNet50等,数字代表网络的层数。不同版本在残差块的堆叠数量上有所不同。 ### PyTorch代码复现 ```python import torch import torch.nn as nn # 定义残差块 class BasicBlock(nn.Module): expansion = 1 def __init__(self, in_channels, out_channels, stride=1): super(BasicBlock, self).__init__() self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False) self.bn1 = nn.BatchNorm2d(out_channels) self.relu = nn.ReLU(inplace=True) self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False) self.bn2 = nn.BatchNorm2d(out_channels) self.shortcut = nn.Sequential() if stride != 1 or in_channels != self.expansion * out_channels: self.shortcut = nn.Sequential( nn.Conv2d(in_channels, self.expansion * out_channels, kernel_size=1, stride=stride, bias=False), nn.BatchNorm2d(self.expansion * out_channels) ) def forward(self, x): out = self.relu(self.bn1(self.conv1(x))) out = self.bn2(self.conv2(out)) out += self.shortcut(x) out = self.relu(out) return out # 定义ResNet class ResNet(nn.Module): def __init__(self, block, num_blocks, num_classes=10): super(ResNet, self).__init__() self.in_channels = 64 self.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1, bias=False) self.bn1 = nn.BatchNorm2d(64) self.relu = nn.ReLU(inplace=True) self.layer1 = self._make_layer(block, 64, num_blocks[0], stride=1) self.layer2 = self._make_layer(block, 128, num_blocks[1], stride=2) self.layer3 = self._make_layer(block, 256, num_blocks[2], stride=2) self.layer4 = self._make_layer(block, 512, num_blocks[3], stride=2) self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) self.fc = nn.Linear(512 * block.expansion, num_classes) def _make_layer(self, block, out_channels, num_blocks, stride): strides = [stride] + [1] * (num_blocks - 1) layers = [] for stride in strides: layers.append(block(self.in_channels, out_channels, stride)) self.in_channels = out_channels * block.expansion return nn.Sequential(*layers) def forward(self, x): out = self.relu(self.bn1(self.conv1(x))) out = self.layer1(out) out = self.layer2(out) out = self.layer3(out) out = self.layer4(out) out = self.avgpool(out) out = torch.flatten(out, 1) out = self.fc(out) return out # 创建ResNet18模型 def ResNet18(): return ResNet(BasicBlock, [2, 2, 2, 2]) # 测试模型 model = ResNet18() x = torch.randn(1, 3, 32, 32) y = model(x) print(y.shape) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值