深入了解VGG16:架构、滤波器可视化与对抗样本
1. VGG16简介
VGG16是一个更强大的卷积神经网络,它经过训练可以分析彩色照片,并通过为1000个不同类别分配概率来识别每张照片中的主要对象。它在一个著名的数据集上进行训练,该数据集是2014年ILSVRC竞赛的一部分。ILSVRC代表ImageNet大规模视觉识别挑战,其图片数据库通常被称为ImageNet数据库,可在线免费获取,至今仍广泛用于训练和测试新网络。
原始的ImageNet数据库包含120万张图像,每张图像都手动标记了1000个标签中的一个,描述照片中最突出的对象。VGG16在竞赛中赢得了一项分类任务,打破了准确率记录。VGG代表视觉几何组,16指网络的16个计算层(还有一些如dropout和flatten的实用层不进行计算)。
VGG16至今仍很受欢迎,原因在于它在图像分类方面表现出色,结构简单易于修改和实验,作者还发布了所有权重和训练数据的预处理方法,而且每个深度学习库都能轻松在代码中创建一个完全训练好的VGG16实例。因此,VGG16常作为图像分类项目的起点。
2. VGG16架构
VGG16的大部分工作由一系列卷积层完成,过程中会出现实用层,最后是一些扁平化和全连接层。在将数据输入模型之前,必须按照作者预处理训练数据的方式进行预处理,即确保每个通道的所有像素都减去一个特定值。为便于讨论网络中张量的形状,假设每个输入图像的高度和宽度为224,与网络训练的Imagenet数据维度匹配,且颜色已正确预处理。
VGG16架构可分为六组层,这些分组只是为了便于讨论相关层。前几组结构相同:两到三层卷积后接一个池化层。具体如下:
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



