VGG: Very Deep Convolutional Networks for Large-Scale Image Recognition

本文详细介绍了VGG网络,该网络在2014年ILSVRC比赛中获得分类项目亚军和定位项目冠军。VGG因其简单结构和强大特征提取能力而广泛应用,如风格迁移、目标检测。研究发现,增加网络深度、使用小卷积核和多尺度训练能有效提升性能。VGG16被证明是最优模型,通过3x3卷积层取代大卷积核和全连接层,减少了参数数量。此外,文章还探讨了感受野的概念及其在目标检测算法中的重要性,并讨论了微调在迁移学习中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、论文研究背景、成果

1.论文研究背景

自从2012年AlexNet将深度学习的方法应用到ImageNet的图像分类比赛中并取得state of the art的惊人结果后,大家都竞相效仿并在此基础上做了大量尝试和改进
1.小卷积核
在第一个卷积层用了更小的卷积核和卷积stride (Zeiler & Fergus, 2013;Sermanet et al, 2014)
2.多尺度
训练和测试使用整张图的不同尺度(Sermanet et al., 2014;Howard, 2014) .

vgg作者不仅将上面的两种方法应用到自己的网络设计和训练测试阶段,同时还考虑了网络深度对结果的影响

2.论文研究成果

在2014年在ILSVRC比赛上获得了分类项目的第二名(第一是GoogLeNet) ,和定位项目的第一名。同时模型对其他数据集有很好的泛化能力。

VGG由于其结构简单,提取特征能力强,所以应用场景广泛

例如:
快速风格迁移算法
目标检测的backbone,提取特征(fater rcnn, ssd等)
gan网络内容特征提取,进行内容计算(内容损失是gan网络损失的一部分)
在这里插入图片描述

二、论文研究方法

进行了六组对比试验,包括A,A-LRN,B,C,D,E六种不同的网络结构

A-LRN在A的基础上加入了一个LRN层
B在A的基础上加入了两个3*3的卷积层
C在B的基础上加入了三个1*1的卷积层
D在B的基础上加入了三个3*3的卷积层
E在D的基础上加入了三个3*3的卷积层
在这里插入图片描述

单尺度测试结果对比

在这里插入图片描述
结论:
1、 LRN对网络性能提升没有帮助
2、 对于同一个网络结构多尺度训练可以提高网络精度
3、 E模型(VGG19)效果最好,一定程度加深网络可以提高网络精度

多尺度测试结果对比

在这里插入图片描述
结论:
1、对比单尺度预测,多尺度综合预测,能够提升预测的精度
证明了scale jittering(尺度抖动)的作用
2、 vgg16为best model

在这里插入图片描述
结论:dense evaluation & multi-crop 两种测试方式联合使用效果最好

在这里插入图片描述
结论:融合模型D、E之后模型错误率进一步下降

三、论文结论

1、在一定范围内,通过增加深度能有效地提升性能
2、最佳模型: VGG16,从头到尾只有3x3卷积与2x2池化,简洁优美
3、多个小卷积核比单个大卷积核性能好(与AlexNet对比可知)
4、AlexNet曾经用到的LRN层并没有带来性能的提升,因此在其它组的网络中均没再出现LRN层
5、尺度抖动scale jittering (多尺度训练,多尺度测试)有利于网络性能的提升

四、感受野

1.感受野概念

感受野(Receptive Field)的定义是:卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是,特征图上的一个点跟原图上有关系的点的区域。

感受野概念为什么重要?
感受野被称作是CNN中最重要的概念之一,目标检测流行的算法比如SSD, Faster Rcnn等中prior box和Anchor box的设计都是以感受野为依据做的设计。

示例
在这里插入图片描述
输入原始图大小为7*7
conv1: 3*3 strides=1, valid
feature: (7-3+1)/1=5
conv2: 3*3 strides=1, valid
feature: (5-3+1)/1=3

原始输入感受野:1
conv1层感受野:3
conv2层感受野:5
如果conv1: 5*5 strides=1, valid,感受野是多少? 5

结论:
一个55卷积核感受野大小与两个33卷积核的感受野等效。
以此类推三个33的卷积核感受野与一个77卷积核的感受野等效

2.感受野的计算

感受野计算公式 r n = r n − 1 + ( k n − 1 ) ∏ i = 1 n − 1 s i r_n=r_{n-1}+(k_n-1)\prod \limits_{i=1}^{n-1}s_i rn=rn1+(kn1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值