【 背景 】
VGG的全称是Oxford Visual Geometry Group的简称。该小组隶属于1985年成立的Robotics Research Group,该Group研究范围包括了机器学习到移动机器人。该团队斩获2014年ImageNet挑战赛分类第二(第一是GoogLeNet),定位任务第一。
数据集:1000个类别的ILSVRC-2012数据集(Large Scale Visual Recognition Challenge),其中:
训练集:130万张图片;
验证集:5万张图片;
测试集:10万张图片,这组数据的label没有给出(with held-out class labels)。
【 摘要 】
论文的主要创新点在于:
-
用小卷积核代替了55或者77的卷积核
-
基于ALexnet加深了网络深度。
-
采用多尺度训练集和验证集训练或测试
【数据预处理】
只进行了归一化处理,归一化的方法是减去RGB每个通道的均值。
【网络详解】
以VGG16为例:
1) 卷积层全部由33和11构成,其中,33的卷积核stride=1,padding尺寸为1;11的卷积核stride=1,无padding
2) 全部采用m