VGG: Very Deep Convolutional Networks for Large-Scale Image Recognition

最新推荐文章于 2025-04-10 20:21:04 发布

G5Lorenzo

最新推荐文章于 2025-04-10 20:21:04 发布

阅读量540

点赞数

分类专栏：论文笔记

本文链接：https://blog.youkuaiyun.com/qq_36825778/article/details/102588965

版权

本文详细介绍了VGG网络，该网络在2014年ILSVRC比赛中获得分类项目亚军和定位项目冠军。VGG因其简单结构和强大特征提取能力而广泛应用，如风格迁移、目标检测。研究发现，增加网络深度、使用小卷积核和多尺度训练能有效提升性能。VGG16被证明是最优模型，通过3x3卷积层取代大卷积核和全连接层，减少了参数数量。此外，文章还探讨了感受野的概念及其在目标检测算法中的重要性，并讨论了微调在迁移学习中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、论文研究背景、成果

1.论文研究背景

自从2012年AlexNet将深度学习的方法应用到ImageNet的图像分类比赛中并取得state of the art的惊人结果后,大家都竞相效仿并在此基础上做了大量尝试和改进
1.小卷积核
在第一个卷积层用了更小的卷积核和卷积stride (Zeiler & Fergus, 2013;Sermanet et al, 2014)
2.多尺度
训练和测试使用整张图的不同尺度(Sermanet et al., 2014;Howard, 2014) .

vgg作者不仅将上面的两种方法应用到自己的网络设计和训练测试阶段,同时还考虑了网络深度对结果的影响

2.论文研究成果

在2014年在ILSVRC比赛上获得了分类项目的第二名(第一是GoogLeNet) ,和定位项目的第一名。同时模型对其他数据集有很好的泛化能力。

VGG由于其结构简单,提取特征能力强,所以应用场景广泛

例如：
快速风格迁移算法
目标检测的backbone,提取特征(fater rcnn, ssd等)
gan网络内容特征提取,进行内容计算(内容损失是gan网络损失的一部分)
在这里插入图片描述

二、论文研究方法

进行了六组对比试验，包括A，A-LRN，B，C，D，E六种不同的网络结构

A-LRN在A的基础上加入了一个LRN层
B在A的基础上加入了两个3*3的卷积层
C在B的基础上加入了三个1*1的卷积层
D在B的基础上加入了三个3*3的卷积层
E在D的基础上加入了三个3*3的卷积层
在这里插入图片描述

单尺度测试结果对比

在这里插入图片描述
结论：
1、 LRN对网络性能提升没有帮助
2、对于同一个网络结构多尺度训练可以提高网络精度
3、 E模型(VGG19)效果最好,一定程度加深网络可以提高网络精度

多尺度测试结果对比

在这里插入图片描述
结论:
1、对比单尺度预测,多尺度综合预测,能够提升预测的精度
证明了scale jittering(尺度抖动)的作用
2、 vgg16为best model

在这里插入图片描述
结论：dense evaluation & multi-crop 两种测试方式联合使用效果最好

在这里插入图片描述
结论：融合模型D、E之后模型错误率进一步下降

三、论文结论

1、在一定范围内,通过增加深度能有效地提升性能
2、最佳模型: VGG16,从头到尾只有3x3卷积与2x2池化,简洁优美
3、多个小卷积核比单个大卷积核性能好(与AlexNet对比可知)
4、AlexNet曾经用到的LRN层并没有带来性能的提升,因此在其它组的网络中均没再出现LRN层
5、尺度抖动scale jittering (多尺度训练,多尺度测试)有利于网络性能的提升