【经典论文阅读】一文读懂VGG网络

《Very Deep Convolutional Networks for Large-Scale Image Recognition》

1. 论文背景

VGG(Visual Geometry Group)网络由 牛津大学计算机视觉组(Visual Geometry Group, VGG) 提出,并在 2014 年的 ImageNet 竞赛(ILSVRC-2014) 中获得了分类任务的 亚军 和定位任务的 冠军。该网络的核心贡献是 使用更深的卷积层 来提升模型性能,同时采用 小卷积核(3×3)来减少参数数量并提高学习能力。VGG的网络结构如下

下图可以清楚的知道各个层级的尺度变换和通道变换

2. VGG 的核心思想

VGG 的主要创新点在于:

  1. 采用更深的网络结构:相比 AlexNet(8 层),VGG 增加到了 16 或 19 层,提升了网络的表达能力。
  2. 使用小卷积核(3×3):所有卷积层都使用 3×3卷积核,而不是较大的 5×5或 7×7,这样可以:
  • 增加非线性能力(两个 3×3卷积相当于一个 5×5巻积)。
  • 减少参数数量(比单个 5×5 卷积的参数更少)

3. 使用多个连续的卷积层:VGG 采用 多个连续的 3×3卷积层,然后接一个池化层,而不是直接用大核卷积或池化。
4. 使用最大池化(Max Pooling:采用 2×2 最大池化层 来减少特征图尺寸。
5. 全连接层(FC):在最后使用三个全连接层,其中两个具有 4096 个神经元,最后一个是 Softmax 分类层。

6.输出结果

3. 小巻积核替代大巻积核的原理

一、计算量减少的原理

二、小巻积核替代大巻积核感受野不变原理

下面这张图片可以直观的表现出感受野变换的原理:5*5尺度的区域经过一个3*3的巻积核变成一个3*3的尺度区域,再经过一个3*3巻积核变成一个1*1尺度的区域。这样两个巻积核对5*5尺度区域作用同样得到一个像素拥有5的感受野。与直接使用5*5巻积的感受野相同。

4. 总结一下弊端

一、需要更深的网络,训练更困难

  • 用多个 3×3卷积代替大卷积,会增加网络深度,深度过大可能带来梯度消失或梯度爆炸问题。
  • 解决方案
    • 使用 Batch Normalization(BN) 进行归一化。
    • 采用 ResNet 残差连接,保证梯度有效传播。
可以看我对resnet网络的介绍: hyshhh:何恺明ResNet(残差网络)——彻底改变深度神经网络的训练方式

二、卷积层的中间输出结果增多,需要存储更多特征图,占用更多 显存(GPU Memory)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值