ResNet网络结构及Pytorch复现

最新推荐文章于 2025-04-23 22:18:19 发布

弱鸡_

最新推荐文章于 2025-04-23 22:18:19 发布

阅读量5.2k

点赞数 27

文章标签： pytorch 人工智能 python

本文链接：https://blog.youkuaiyun.com/qq_62615329/article/details/137437115

版权

ResNet结构

ResNet的网络结构有：ResNet18、ResNet34、ResNet50、ResNet101、ResNet152.其中ResNet18和ResNet34属于浅层网络，ResNet50、ResNet101、ResNet152属于深层网络。

ResNet创新点

1.超深的网络结构（突破1000层）

2.提出Residual模块

3.使用Batch Normalization加速训练

残差结构

ResNet有两种残差结构，左边这种称为BasicBlock，包含2个3*3的卷积层，用于ResNet18、ResNet34中，右边这种称为Bottleneck，包含3个卷积层，依次为1*1、3*3、1*1，用于ResNet50、ResNet101、ResNet152。

我们把残差结构称为block，每个stage都是由若干个block组成。再由若干stage组成整个网络。这里把开始时7*7的卷积层和3*3的maxpool层称为stem层，除去stem层每种ResNet都是4个stage。图中一个方括号就是一个Block，由若干个Block组成一个stage，图中conv2_x对应stage1，conv3_x对应stage2，conv4_x对应stage3，conv5_x对应stage4.

各ResNet网络都具有以下的共同点：

网络一共有5个卷积组，每个卷积组都进行若干次基本的卷积操作（Conv->BN->ReLU）
每个卷积组都会进行一次下采样操作，使特征图的尺寸减半。在卷积组2中使用最大池化进行下采样；在其余4个卷积组中使用卷积进行下采样。
每个网络的第一个卷积组都是相同的，卷积核7*7，步长为2。
第2-5卷积组均由若干残差结构组成，称为stage1-4.

下面以ResNet34和ResNet50为例介绍网络的结构。

ResNet 34

stem layer

处理流程是：卷积->BN->ReLU->池化->BN->ReLU

卷积：输入图片的尺寸为3*224*224（channel*height*width），使用64个3*7*7的卷积核进行卷积，padding=3，stride=2.输出为64*112*112。

池化：使用64个3*3，padding=1，stride=2的池化单元进行maxpooling，输出为64*56*56。

stage 1

处理流程是：(卷积->BN->ReLU)*3

stage 1由3个BasicBlock组成，每个BasicBlock由两层卷积层组成，每层64个64*3*3的卷积核，stride=1，padding=1。输出仍为64*56*56.

stage 2

处理流程是：(卷积->BN->ReLU)*4

stage 2由4个BasicBlock组成，与stage 1不同，第一个BasicBlock的卷积层1是128个64*3*3的卷积核，stride=2，padding=1；卷积层2是128个128*3*3的卷积核，stride=1，padding=1.输出128*28*28.

到第一个Block末尾处，需要在output加上residual，但输入为64*56*56，所以在输入和输出之间加一个1*1的卷积层，stride=2，使得输入和输出尺寸一致。（代码中downsample部分）

第二、三、四个BasicBlock由两层卷积层组成，每层128个128*3*3的卷积核，stride=1，padding=1。输出为128*28*28. 由于这些Block没有降低尺寸，residual和输出尺寸相同，所以没有downsample部分。

stage 3-4

stage 3-4与stage 2类似，都使通道数变多，输出尺寸变小。stage 3的输出为256*14*14，stage 4的输出为512*7*7.

了解网络的结构后，我们发现：ResNet中的下采样操作发生在每个Stage的第一个Block或最大池化层，实现方式是操作都是通过在卷积或者池化中取步长为2。

ResNet 50

stem layer

所有ResNet的stem layer均是相同的。

处理流程是：卷积->BN->ReLU->池化->BN->ReLU

卷积：输入图片的尺寸为3*224*224（channel*height*width），使用64个3*7*7的卷积核进行卷积，padding=3，stride=2.输出为64*112*112。

池化：使用3*3，padding=1，stride=2的池化单元进行maxpooling，输出为64*56*56。

stage 1

与Basicblock不同的是，每一个Bottleneck都会在输入和输出之间加上一个卷积层，加入卷积层的原因是使得输入和输出尺寸一致。只不过在stage 1中还没有downsample，这点和Basicblock是相同的。

处理流程是：(卷积->BN->ReLU)*3

stage 1由3个Bottleneck组成，每个Bottleneck由三层卷积层组成，第一层64个1*1的卷积核，stride=1，padding=0。输出为64*56*56；第二层64个64*3*3的卷积核，stride=1，padding=1，输出为64*56*56；第三层256个64*1*1的卷积核，stride=1，padding=0，输出为256*56*56.此操作重复3遍，输出为256*56*56.