《Very deep convolutional networks for large-scale image recognition》阅后笔记

最新推荐文章于 2025-05-23 16:36:35 发布

原创最新推荐文章于 2025-05-23 16:36:35 发布 · 979 阅读

CC 4.0 BY-SA版权

本文介绍了VGGNet深度卷积网络，它由牛津大学和DeepMind共同研发，在2014年ILSVRC比赛取得佳绩。研究探究了卷积网络深度对模型精确度的影响，阐述了其网络结构、3×3卷积核优点、加入1*1卷积层的作用，还介绍了训练和测试方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

VGGNet是牛津大学计算机视觉组和DeepMind公司共同研发一种深度卷积网络，并且在２０１４年在ILSVRC比赛上获得了分类项目的第二名和定位项目的第一名。

论文主要研究目的：

通过使用具有非常小（3×3）卷积核的架构对深度增加的网络进行全面评估。探究在大规模图像识别任务中，卷积网络深度对模型精确度有何影响。

为了衡量不同深度对精度造成的影响，所有的ConvNet层配置都采用相同的原则设计，网络结构如下图所示。

即：

1）、图像唯一预处理：在训练时对训练图像逐像素减去均值；

2）、VGG结构由5层卷积层、3层全连接层、softmax输出层构成，层与层之间使用max-pooling（最大池化）分开，所有隐层的激活单元都采用ReLU函数。使用3*3的卷积核，步长为1，卷积时padding=1，从而保证图像空间分辨率不变；采用2x2，步长为2的Max-pooling。共有三个全连接层，前两层都有4096通道，第三层共1000路及代表1000个标签类别；最后一层为softmax层；经过实验证明，AlexNet中提出的局部响应归一化（LRN）对性能提升并没有什么帮助（对比A结构），后续该结构没有采用。

Discussion

1、作者在第一个卷积层没有采用较大的卷积核（ 11× 11 with stride 4 or 7× 7 with stride 2），而是在整个网络中使用非常小的3×3 with stride 1 卷积核。并且作者认为两个叠加的3x3核视野相当于一个5*5卷积核的视野，三个叠加的3x3核视野相当于一个7*7卷积核视野。

相同视野计算：

假设图片尺寸为28*28

使用5*5的卷积核对其卷积，步长为1，得到的结果是:(28-5)/1+1=24

使用连续2个3*3卷积核，步长为1。第一层：得到的结果是(28-3)/1+1=26 ；第二层：得到的结果是(26-3)/1+1=24

关于3×3卷积核优点，作者给出如下解释：

a、3×3卷积核是捕捉左/右，上/下，中心概念的最小尺寸；

b、通过叠加多个连续的3×3卷积核可引入多个非线性层而不是一个非线性整齐层（5*5/7*7卷积核后面只跟一个relu层），这使决策功能更具辨别力。（可理解为通过增加网络的非线性程度来提升网络性能）。we incorporate three non-linearrectification layers instead of a single one, which makes the decision function more discriminative。

c、多个 3x3的卷积层比一个大尺寸的 filter 有更少的参数，假设卷基层的输入和输出的特征图大小相同为 C，那么三个 3x3 的卷积层参数个数 3x（3x3xCxC）=27C2；一个7x7的卷积层参数为49C2；所以可以把三个3x3的filter看成是一个7x7 filter的分解（中间层有非线性的分解, 并且起到隐式正则化的作用）。This can be seen as imposing a regularisation on the 7 × 7 conv. filters, forcing them to have a decomposition through the 3 × 3 filters (with non-linearity injected in between)。

2、加入1*1卷积层。其是一种在不影响卷积层视野的情况下，在网络中加入非线性决策的方法。因为1x1就相当于可以看作是一种对输入通道进行线性变换的操作。

训练

作者采用具有动量的小批量梯度下降法来优化多项逻辑回归目标函数。batch_size=256，momentum=0.9，

L2正则化参数为5x10−4，全连接层中间引入dropout层，dropout=0.5。学习率初值为0.01，且当验证集停止提升时以10的倍数衰减3次。在训练时通过随机裁剪、色彩变换、水平翻转操作进行数据增强。

针对上述裁剪的问题，提出的两种解决办法：
(1) 固定最小遍的尺寸为256
(2) 随机从[256,512]的确定范围内进行抽样，这样原始图片尺寸不一，有利于训练，这个方法叫做尺度抖动scal jittering，有利于训练集增强。训练时运用大量的裁剪图片有利于提升识别精确率。

测试

测试图片的尺寸不一定要与训练图片的尺寸相同，且不需要裁剪。测试的时候，首先将全连接层转换到卷积层，第一个全连接层转换到一个7x7的卷积层，后面两个转换到1x1的卷积层，

这也是VGG的一个特点，在网络测试阶段将训练阶段的三个全连接替换为三个卷积，使得测试得到的全卷积网络因为没有全连接的限制，因而可以接收任意宽或高为的输入，这在测试阶段很重要。
如输入图像是224x224x3，若后面三个层都是全连接，那么在测试阶段就只能将测试的图像全部都要缩放大小到224x224x3，才能符合后面全连接层的输入数量要求，这样就不便于测试工作的开展。