深度学习入门笔记之VggNet网络

原创

已于 2022-05-30 18:59:11 修改 · 1.1w 阅读

64 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #网络 #cnn

于 2022-02-06 08:29:47 首次发布

本文详细介绍了VGGNet，包括其在ILSVRC2014中的表现，网络结构（16-19层深度，3x3小卷积核和22层最大池化），特点（简洁结构、小卷积核、全连接层转卷积层等），并提供了PyTorch实现代码和注意事项。

VGGNet是由牛津大学的视觉几何组（Visual Geometry Group）和谷歌旗下DeepMind团队的研究员共同研发提出的，获得了ILSVRC 2014（ 2014年ImageNet图像分类竞赛）的第二名，将 Top-5错误率降到7.3%，在Top-5中取得了92.3%的正确率，同年的冠军是googlenet。
目前使用比较多的网络结构主要有ResNet（152-1000层），GooleNet（22层），VGGNet（19层），大多数模型都是基于这几个模型上改进，采用新的优化算法，多模型融合等。到目前为止，VGGNet 依然经常被用来提取图像特征。
一、简介
论文名为《Very Deep Convolutional Networks for Large-Scale Image Recognition》，论文地址：https://arxiv.org/pdf/1409.1556.pdf。 VGGNet论文给出了一个非常振奋人心的结论：卷积神经网络的深度增加和小卷积核的使用对网络的最终分类识别效果有很大的作用。
VGGNet探索了CNN的深度及其性能之间的关系，通过反复堆叠33的小型卷积核和22的最大池化层，VGGNet成功的构筑了16-19层深的CNN。
二、网络结构
网络结构如下图所示，其中D和E即为常用的VGG-16和VGG-19，前者拥有13个核大小均为3×3的卷积层、5个最大池化层和3个全连接层，后者拥有16个核大小均为3×3的卷积层、5个最大池化层和3个全连接层。本文主要针对VGG16进行解读，可以看出VGG19只是多了3个卷积层而已，其它的和VGG16没啥区别。
在这里插入图片描述
表中的卷积层（conv3-kernels，其中kernels代表卷积核的个数）全部都是大小为3x3，步距为1，padding为1的卷积操作（经过卷积后不会改变特征矩阵的高和宽）。最大池化下采样层全部都是池化核大小为2，步距为2的池化操作，每次通过最大池化下采样后特征矩阵的高和宽都会缩减为原来的一半。
VGG-16的结构图如下图：
在这里插入图片描述
VGG-16架构：13个卷积层+3个全连接层，前5段卷积网络（标号1-5），最后一段全连接网络（标号6-8），网络总共参数数量大约138M左右。。

(1) 输入层(Input)：图像大小为224×224×3

(2) 卷积层1+ReLU：conv3 - 64（卷积核的数量）：kernel size:3 stride:1 pad:1
像素：（224-3+2×1）/1+1=224 输出为224×224×64 64个feature maps
参数：（3×3×3）×64+64=1792

(3) 卷积层2+ReLU：conv3 - 64：kernel size:3 stride:1 pad:1
像素：（224-3+1×2）/1+1=224 输出为224×224×64 64个feature maps
参数： (3×3×64×64)+64=36928

(4) 最大池化层： pool2： kernel size:2 stride:2 pad:0
像素：（224-2）/2 = 112 输出为112×112×64，64个feature maps
参数： 0

(5) 卷积层3+ReLU：.conv3-128:kernel size:3 stride:1 pad:1
像素：（112-3+2×1）/1+1 = 112 输出为112×112×128，128个feature maps
参数： (3×3×64×128)+128=73856

(6) 卷积层4+ReLU：conv3-128:kernel size:3 stride:1 pad:1
像素：（112-3+2×1）/1+1 = 112 输出为112×112×128，128个feature maps
参数： (3×3×128×128)+128=147584

(7) 最大池化层：pool2: kernel size:2 stride:2 pad:0
像素：（112-2）/2+1=56 输出为56×56×128，128个feature maps。
参数： 0

(8) 卷积层5+ReLU：conv3-256: kernel size:3 stride:1 pad:1
像素：（56-3+2×1）/1+1=56 输出为56×56×256，256个feature maps
参数： (3×3×128×256)+256=295168

(9) 卷积层6+ReLU：conv3-256: kernel size:3 stride:1 pad:1
像素：（56-3+2×1）/1+1=56 输出为56×56×256，256个feature maps，
参数： (3×3×256×256)+256=590080

(10) 卷积层7+ReLU：conv3-256: kernel size:3 stride:1 pad:1
像素：（56-3+2×1）/1+1=56 输出为56×56×256，256个feature maps
参数： (3×3×256×256)+256=590080

(11) 最大池化层：pool2: kernel size:2 stride:2 pad:0
像素：（56 - 2）/2+1=28 输出为28×28×256，256个feature maps
参数： 0

(12) 卷积层8+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（28-3+2×1）/1+1=28 输出为28×28×512，512个feature maps
参数： (3×3×256×512)+512=1180160

(13) 卷积层9+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（28-3+2×1）/1+1=28 输出为28×28×512，512个feature maps
参数： (3×3×512×512)+512=2359808

(14) 卷积层10+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（28-3+2×1）/1+1=28 输出为28×28×512，512个feature maps
参数： (3×3×512×512)+512=2359808

(15) 最大池化层：pool2: kernel size:2 stride:2 pad:0，输出为14×14×512，512个feature maps。
像素：（28-2）/2+1=14 输出为14×14×512
参数： 0

(16) 卷积层11+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（14-3+2×1）/1+1=14 输出为14×14×512，512个feature maps
参数： (3×3×512×512)+512=2359808

(17) 卷积层12+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（14-3+2×1）/1+1=14 输出为14×14×512，512个feature maps
参数： (3×3×512×512)+512=2359808

(18) 卷积层13+ReLU：conv3-512:kernel size:3 stride:1 pad:1
像素：（14-3+2×1）/1+1=14 输出为14×14×512，512个feature maps，
参数： (3×3×512×512)+512=2359808

(19) 最大池化层：pool2:kernel size:2 stride:2 pad:0
像素：（14-2）/2+1=7 输出为7×7×512，512个feature maps
参数： 0

(20) 全连接层1+ReLU+Dropout：有4096个神经元或4096个feature maps
像素：1×1×4096
参数：7×7×512×4096 = 102760448

(21) 全连接层2+ReLU+Dropout：有4096个神经元或4096个feature maps
像素：1×1×4096
参数：4096×4096 = 16777216

(22) 全连接层3：有1000个神经元或1000个feature maps
像素：1×1×1000
参数：4096×1000=4096000

(23) 输出层(Softmax)：输出识别结果，看它究竟是1000个可能类别中的哪一个。

train和predict的可视化结果如下图所示：
在这里插入图片描述
三、VGGNet的特点
VGG网络的特点是利用小的尺寸核代替大的卷积核，然后把网络做深。
1. 结构简洁 卷积层+ReLU、最大池化层、全连接层、Softmax输出层。
VGGNet的结构十分简洁，由5个卷积层、3个全连接层和1个softmax层构成，**层与层之间使用最大池化连接，隐藏层之间使用的激活函数全都是ReLU。**并且网络的参数也是整齐划一的，赏心悦目。
2. 使用小卷积核
VGGNet使用含有多个小型的3×3卷积核的卷积层来代替AlexNet中的卷积核较大的卷积层。**2个3×3的卷积核堆叠的感受野相当于一个5×5的卷积核的感受野，而3个3×3的卷积核堆叠的感受野则相当于一个7×7的卷积核的感受野。**因此，采用多个小型卷积核，既能减少参数的数量，又能增强网络的非线性映射从而提升网络的表达能力。
在这里插入图片描述

为什么可以增加网络的非线性？我们知道激活函数的作用就是给神经网络增加非线性因素，使其可以拟合任意的函数，每个卷积操作后都会通过ReLU激活，ReLU函数就是一个非线性函数。下图展示了为什么使用2个3x3的卷积核可以代替5×5卷积核。
在这里插入图片描述
总结一下，使用多个3×3卷积堆叠的作用有两个：一是在不影响感受野的前提下减少了参数；二是增加了网络的非线性。
3. 使用小滤波器
与AlexNet相比，VGGNet在池化层全部采用的是2×2的小滤波器，stride为2。。
4. 通道数较多
VGGNet的第一层有64个通道，后面的每一层都对通道进行了翻倍，最多达到了512个通道（ 64-128-256-512-512）。由于每个通道都代表着一个feature map，这样就使更多的信息可以被提取出来。
5 图像预处理
训练采用多尺度训练（Multi-scale），将原始图像缩放到不同尺寸 S，然后再随机裁切224x224的图片，并且对图片进行水平翻转和随机RGB色差调整，这样能增加很多数据量，对于防止模型过拟合有很不错的效果。
初始对原始图片进行裁剪时，原始图片的最小边不宜过小，这样的话，裁剪到224x224的时候，就相当于几乎覆盖了整个图片，这样对原始图片进行不同的随机裁剪得到的图片就基本上没差别，就失去了增加数据集的意义，但同时也不宜过

最低0.47元/天解锁文章