VGGNet来源论文《Very deep convolutional networks for large-scale image recognition》读后总结

VGGNet是牛津大学视觉几何组在2015年ICLR发表的深度学习模型,其在ILSVRC-2014竞赛中取得优异成绩。VGGNet的主要贡献在于使用更深的网络结构和更小的卷积滤波器,如3x3和1x1的滤波器,以减少参数数量并提高模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

VGGNet来源论文《Very deep convolutional networks for large-scale image recognition》读后总结)

前言

这是一些对于论文《Very deep convolutional networks for large-scale image recognition》的简单的读后总结,首先先奉上该文章的下载超链接:Very deep convolutional networks for large-scale image recognition

这篇文章是牛津大学工程科学系视觉几何组(Visual Geometry Group, Department of Engineering Science, University of Oxford)的Karen Simonyan 和Andrew Zisserman于ICLR 2015发表的。其是著名的VGG-Net的来源,该网络在ILSVRC-2014挑战的分类任务中获得了第二名的佳绩,在定位比赛中获得了第一名。

文章主要内容与贡献

该文章的贡献为:
1.使用了更深的网络结构;
2. 使用了更小的卷积滤波器;

使用了更深的网络结构

该文章设计了多种网络结构,从11层到19层都有。
VGG的详细结构

通过上表可知卷积层的通道数也是具有一定规律的,可以发现VGG的卷积通道数皆为64、128、256和512,这四个数分别是 2 6 , 2 7 , 2 8 , 2 9 2^6,2^7,2^8,2^9 26,27,28,29,而且卷积层越靠前通道数越少,越后面的卷积层通道数越多,此举首先是为了契合计算机2进制计算的特性,然后便是想要使得网络能提取更多的高级特征。激活函数使用的是ReLU函数。

使用了更小的卷积滤波器

通过第一个表可知,VGG-Net中的卷积滤波器只有两种,一种是 3 × 3 3\times3 3×3的卷积滤波器,另外一种是 1 × 1 1\times1 1×1的卷积滤波器。 3 × 3 3\times3 3×3的卷积滤波器是捕捉左右上下和中心概念的最小尺寸。其优点是与大的卷积滤波器相比,其能在使用多个 3 × 3 3\times3 3×3卷积滤波器来获得与大的卷积滤波器相同感受野的基础上大量的减少参数,这样可以大量的减少计算量,例如三个 3 × 3 3\times3 3×3的卷积滤波器可以获得和一个 7 × 7 7\times7 7×7的卷积滤波器相同的感受野,假设这些 3 × 3 3\times3 3×3的卷积滤波器的输入输出都有C个通道,那么参数总量为 3 ( 3 2 C 2 ) = 27 C 2 3(3^2C^2)=27C^2 3(32C2)=27C2,而单个 7 × 7 7\times7 7×7的卷积滤波器的参数总量为 7 2 C 2 = 49 C 2 7^2C^2=49C^2 72C2=49C2,可以发现 7 × 7 7\times7 7×7的卷积滤波器的参数比三个 3 × 3 3\times3 3×3的卷积滤波器多 81 % 81\% 81%的参数。同时实验表明小的卷积滤波器不光速度更快,而且最后的结果更好。 1 × 1 1\times1 1×1的卷积滤波器是一种增加决策功能的非线性而不影响卷积层感受野的方法,其基本上是在相同维度的空间上的线性投影,但是整流函数引入了额外的非线性,之前有人也用过 1 × 1 1\times1 1×1的卷积滤波器,但他们的网络深度远远低于VGG-Net。

最后献上数值实验

ILSVRC-2014的比赛结果:
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值