这篇文章不仅仅关注于VGGNet的网络结构,重点在于分析VGGNet设计者当时的出发点,以及能带给我们什么启发。
简介
VGGNet由牛津大学的视觉几何组(Visual Geometry Group)提出,获得了2014年ILSVRC竞赛的分类任务第二名和定位任务第一名,主要贡献在于证明了使用3x3小卷积核,增加网络深度可以有效提升模型性能,并且对于其他数据集也有很好的泛化性能。
论文链接:Very deep convolutional networks for large-scale image recognition
网络结构
论文中一共提供了6种网络配置,层数从浅到深分别为11层、13层、16层和19层。其中11层时,主要比较了Local Response Normalisation(LRN)的作用,结果是LRN并没有提升网络性能。除了网络结构的变化,VGGNet从原理上和传统的CNN模型并没有太大区别,都是采用同样的训练Pipeline。
主要贡献
1. 使用3x3小卷积核。首先我们先了解这样一个知识:两个3x3卷积堆叠在一起(中间没有池化层)的感受野相当于一个5x5的卷积,三个3x3卷积堆叠在一起的感受野相当于一个7x7的卷积。为了更形象的理解这一点,我们看下图,两个3x3堆叠在一起的效果,