论文阅读:VGGNet—Very Deep Convolutional Networks For Large-Scale Image Recognition
1、摘要
在这篇论文中,作者对卷积神经网络的深度对于其在大规模图像数据集的识别的准确性做了一个完全的评估,特点在于将CNN的网络深度提升到了16-19层,提升了大规模图像的识别准确性;同时有证明了VGG在深度视觉表征中具有较强的泛化能力。
2、引言
引言部分作者总结了自AlexNet以来CNN在大规模图像识别中的广泛应用,同时提出了AlextNet后续研究中提升模型性能的两个方面:
- 使用更小的卷积核
- 全图像多尺度地训练和测试模型
而本文提出了提升网络性能地另一条重要的途径:深度,为了实现极大的深度,本文使用了极小的卷积核(3x3).
3、分类架构
本文提出的VGG模型架构如下表所示:
可以看到,从A-E网络的深度逐渐增加,且网络中采用了多层连续卷积之后再进行pooling的方式。
那么,为什么使用更小的卷积核可以提升性能,加深网络结构呢?原因在于使用多层小的卷积核:
- 获得的感受野与单层较大的卷积核一致
- 减少参数数量
- 多层堆叠增强非线性,增强网络地特征表达能力
举例来说,使用两个连续的3x3卷积与一层5x5卷积获得的感受野是一致的,而三个3x3连续卷积与一层7x7卷积所获得的感受野也是一致的。具体图下图所示:
在参数压缩方面,以三层3x3卷积与一层7x7卷积为例,对于C个channel的卷积核,前者的参数数3x(3^2xC)=27C, 后者1x(7x7xC)=49C, 可以看出参数数量减少的很多。文章对提出的多个模型的参数数量进行了展示:
深度最深的E网络的模型参数大体上与2014年ILSVCR竞赛中获得Location第一名的网络参数一致(Seemanet 2014).
注意到A-LRN网络架构,这是在A模型的基础上加入了局部响应归一化(第一层卷积层之后),后面的实验证明局部响应归一化对于提升性能几乎没有作用,甚至还浪费了计算资源。另一方面,在某些特定的网络层中使用了1x1卷积,虽然输入与输出的通道数是一致的,所以本质上是在同一个空间维度中做线性变换,随后的非线性层却增加了额外的非线性。
4、训练阶段
训练阶段使用基于mini-batch的带Momentum的随机梯度优化,同时加上了L2正则化,实验发现相比起AlexNet,VGG收敛需要的迭代次数,原因在于隐式的正则化与对于特定层的预初始化(pre-initialization).
在这篇文章中,作者对第一个较小的A网络使用了随机初始化权重,但对于后面的几个网络结构,使用了A中训练好的权重来初始化对应的层,剩余层才使用随机初始化。
训练图像的获取
不同于AlextNet所进行的固定尺寸(224*224)的图像增强方式(详情见上一篇文章),这里还考虑了单尺度(Single-scale)与多尺度(Multi-scale)的输入图像。
首先,对于单尺度输入图像,通过设定一个最短边的值S来进行缩放,即按照将短边缩放到S的比例缩放图像。则当S=224时,相当于没有变换,当S>>224时,图像被放大,然后再被剪裁成224x224的尺寸,这样做相当于对于图像中同一个物体,在不同的尺度下有不同的大小,这也符合客观世界的规律。
其次,对于多尺度,则将S设定在一个合理的区间[Smin,Smax], 这称之为尺度抖动(scale jittering)然后对每一张训练图像都独立地选择S进行缩放,再剪裁成固定的224x224大小,这样相当于有多个尺度的训练图像被一起学习,提高了特征表达能力。在训练多尺度的时候,使用了单尺度下S=384的权重来初始化新的网络,加快计算。
5、测试阶段
在测试阶段同样引入了多尺度的概念,测试时将输入模型的图像的短边定义为Q,这个值可以与训练时的短边S不一致,对于多尺度的测试,选择不同的Q值会scale出不同尺寸的输入图像,这里并不像训练阶段对scale后的图像进行裁剪,而是将模型的后三层FC层转化为FCN(Fully-Convlutional Network),这一思想参考了(Seemanet 2014),这样做的好处在于可以处理不同尺度的输入图像。
FC层到FCN层的转化,图源(https://blog.youkuaiyun.com/qq_40027052/article/details/79015827)
对于FCN层如何处理不同尺寸数据,Seemanet论文中有如下解释:
对于输入的尺寸为(Q,Q,C)的图像,经过一层7x7卷积,两层1x1卷积以后,输出的特征图为(N,N,1000),对于224x224的图像输入,N=1,对于N>1的情况,在最后的特征图上进行平均,得到(1,1,1000)的得分,然后将该向量传递给soft-max函数。这样的处理方式作者称之为密集评估
在多尺度密集评估的基础上,论文Seemanet指出虽然使用FCN层无需对输入的测试图像进行剪裁,但是使用大量的剪裁图像可以提升识别的准确性。作者认为,图像剪裁使得获得的输入图像更为精细的采样。
6、分类实验
6.1 数据集
整个的评估实验均在ILSVRC-2012数据集上进行,数据类别1000, 训练数据1.3M图像, 验证数据50K图像,测试数据100K图像。
6.2 单尺度评估
在进行单尺度评估时,当S为固定值时,Q=S, 当S有尺度变化时,Q=(Smin+Smax) / 2, 根据这个规则进行了多组实验,实验结果如下。
通过结果可以看出:
- 加入局部响应归一化对于模型的性能并没有提升,例如(A/A-LRN)
- 控制其他实验条件不变的情况下,随着深度的增加模型的效果越好((A-E(256,256))
- 深度相同的情况下,相比起使用1x1卷积的C模型,使用3x3卷积的模型D的效果更好,这表明虽然1x1卷积可以增加额外的非线性,例如(D模型比B、C好),但是利用空间上的卷积可以捕获更多的上下文
- 尺度抖动比使用固定的最短边S更好
6.3 多尺度评估
对于固定大小的 S ,测试图片大小 Q={S-32, S, S+32} ;对于不固定大小的 S=[Smin, Smax], Q={Smin, 0.5(Smin+Smax), Smax),评估结果如下图所示:
实验表明使用测试时使用尺度抖动能够获得更好的效果,与之前类似,深度较深的网络有较好的性能,使用尺度抖动比单尺度下训练模型得到的效果要好。
6.4 多剪裁评估
作者在密集卷积与多剪裁之间做了比较,相比起不进行剪裁,使用测试时使用大量的图像剪裁获得的效果要好上一点点,随后作者将这两种方法进行结合,获得了更显著的性能。
6.5 模型融合
与大多数模型一样,本文也对提出的多个模型进行了模型融合,做法是将多个模型预测的分类得分进行平均,多个模型互为补充,获得了更好的性能。7个模型的融合结果使得识别的错误率(top-5)下降到7.3%,这也是该团队在ILSVRC竞赛中的提交,随后,作者发现仅融合两个模型(D,E)可以获得更佳的效果。
随后,作者将改进后的模型融合与ILSVRC分类任务中的多个模型进行对比:
7、结论
本文在大规模图像数据集上评估了深层次的卷积神经网络模型的性能,结果表明深度表征对于图像分类的准确性具有重要的意义,同时也证明使用简单质朴的网络结构也可以在大规模图像分类中达到SOTA。
8、代码分析
import torch
import torch.nn as nn
from .utils import load_state_dict_from_url
__all__ = [
'VGG', 'vgg11', 'vgg11_bn', 'vgg13', 'vgg13_bn', 'vgg16', 'vgg16_bn',
'vgg19_bn', 'vgg19',
]
model_urls = {
'vgg11': 'https://download.pytorch.org/models/vgg11-bbd30ac9.pth',
'vgg13': 'https://download.pytorch.org/models/vgg13-c768596a.pth',
'vgg16': 'https://download.pytorch.org/models/vgg16-397923af.pth',
'vgg19': 'https://download.pytorch.org/models/vgg19-dcbb9e9d.pth',
'vgg11_bn': 'https://download.pytorch.org/m