Very Deep Convolutional Networks for Large-Scale Image Recognition-VGGNet解读

最新推荐文章于 2025-04-28 17:11:55 发布

原创

最新推荐文章于 2025-04-28 17:11:55 发布 · 3.4k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#VGG16 #VGG19 #卷积 #神经网络

VGGNet是一种用于大规模图像识别的深度卷积神经网络，由牛津大学计算机视觉组和Google DeepMind公司共同研发。该网络通过增加网络深度，使用3x3的小卷积核和2x2的池化核，成功构建了16~19层的深度网络，证明了增加网络深度能够有效提升图像分类性能。

作者：HYH

日期：2020-9-10

论文期刊：ICLR2015

标签：VGG

论文：《Very Deep Convolutional Networks for Large-Scale Image Recognition》

一、简介：

2014年,牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发出了一种新的深度卷积神经网络：VGGNet,并取得了ILSVRC2014比赛分类项目的第二名（第一名是GoogLeNet，也是同年提出的）。
VGGNet的产生主要源于2012年AlexNet将深度学习的方法应用到ImageNet的图像分类比赛中并取得了惊人的效果后,大家都竞相效仿并在此基础上做了大量尝试和改进,例如,在卷积层使用更小的卷积核以及更小的步长(Zeiler＆Fergus,2013; Sermanet,2014),又或者在整个图像和多个尺度上密集地训练和测试网络(Sermanet,2014:Howard,2014)。但这些优化中作者觉得都没有谈到网络深度的工作，因此受到启发，不仅将上面的两种方法应用到自己的网络设计和训练测试阶段,同时想再试试深度对结果的影响。
因此VGGNet主要探索了卷积神经网络的深度与其性能之间的关系，并成功地构筑了16~19层深的卷积神经网络，证明了增加网络的深度能够在一定程度上影响网络最终的性能，使错误率大幅下降。所以到目前为止，VGG仍然被用来提取图像特征。换句话说,VGGNet可以看成是加深版本的AlexNet，都是由卷积层、全连接层两大部分构成。
他们最好的网络包含了13个卷积层和3个全连接层(VGG16),网络的结构非常一致,从头到尾全部使用的是3x3的卷积核和2x2的池化核(Alexnet中使用的是3x3池化核)。他们的预训练模型是可以在网络上获得并在Caffe中使用。 VGGNet不好的一点是它耗费更多计算资源，并且使用了更多的参数，导致更多的内存占用(140M)。其中绝大多数的参数都是来自于第一个全连接层。作者后来发现这些全连接层即使被去除,对于性能也没有什么影响，而且还可以使输入的图片尺寸不受限制，因此在后面的测试阶段将这三个全连接层转化成了卷积层使用。因此目前使用比较多的深层网络结构主要有ResNet(152-1000层),GooleNet(22层),VGGNet(19层)。而后面大多数模型都是基于这几个模型进行改进,采用新的优化算法,多模型融合等。

主要贡献: 最重要的就是讨论了在大规模图像识别中，神经网络深度对于其准确率的影响。

二、VGG的网络配置

因为论文主要讨论的是网络结构的深度，所以一开始先给出了多种不同深度的网络，分别称为为A-E网络，从11-19层，其中D和E被称为VGG16和VGG19。各网络结构配置如下：
在这里插入图片描述
在这篇论文中分别使用了A、A-LRN、B、C、D、E这6种网络结构进行测试，这6种网络结构相似，都是由5层卷积层、3层全连接层组成，其中区别在于每个卷积层的子层数量不同，从A至E依次增加（子层数量从1到4），总的网络深度从11层到19层（添加的层以粗体显示），表格中的卷积层参数表示为“conv⟨感受野大小⟩-通道数⟩”，例如con3-128，表示使用3x3的卷积核，通道数为128。为了简洁起见，在表格中不显示ReLU激活功能。