VGG16模型训练自己数据集

最新推荐文章于 2025-10-11 08:35:11 发布

原创

最新推荐文章于 2025-10-11 08:35:11 发布 · 9.8k 阅读

27 ·

CC 4.0 BY-SA版权

VGG16是一种卷积神经网络模型，源于2014年ImageNet比赛的优秀作品，擅长图像分类和定位。其结构简单，主要由多个3x3卷积层堆叠而成，配合最大池化层，最后接全连接层。在训练时，输入图像需进行预处理，减去平均RGB值。VGG模型有不同的配置，如VGG16和VGG19，以堆叠的卷积层数量区分。

什么是VGG16模型

VGG是由Simonyan 和Zisserman在文献《Very Deep Convolutional Networks for Large Scale Image Recognition》中提出卷积神经网络模型，其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。
该模型参加2014年的 ImageNet图像分类与定位挑战赛，取得了优异成绩：在分类任务上排名第二，在定位任务上排名第一。这就是说VGG模型能够很好的适用于分类和定位任务。
可能大家会想，这样一个这么强的模型肯定很复杂吧？
其实一点也不复杂，它的结构如下图所示：
VGG模型图
这是一个VGG被用到烂的图，但确实很好的反应了VGG的结构：
**
1、一张原始图片被resize到(224,224,3)。
2、conv1两次[3,3]卷积网络，输出的特征层为64，输出为(224,224,64)，再2X2最大池化，输出net为(112,112,64)。
3、conv2两次[3,3]卷积网络，输出的特征层为128，输出net为(112,112,128)，再2X2最大池化，输出net为(56,56,128)。
4、conv3三次[3,3]卷积网络，输出的特征层为256，输出net为(56,56,256)，再2X2最大池化，输出net为(28,28,256)。
5、conv4三次[3,3]卷积网络，输出的特征层为256，输出net为(28,28,512)，再2X2最大池化，输出net为(14,14,512)。
6、conv5三次[3,3]卷积网络，输出的特征层为256，输出net为(14,14,512)，再2X2最大池化，输出net为(7,7,512)。
7、利用卷积的方式模拟全连接层，效果等同，输出net为(1,1,4096)。共进行两次