VggNet

本文介绍了VGG16和VGG19两种深度卷积神经网络结构,强调了小卷积核在提高网络深度及模型表现力上的关键作用,通过堆叠3x3卷积核实现与大卷积核相同感受野但更少参数的效果,展示了深度网络在大规模图像识别任务中的优越性。

Paper : Very Deep Convolutional Networks for Large-Scale Image Recognition
Code : torchvision

概要

本文的主要贡献是提出了Vgg16和Vgg19两种网络结构,并强调了使用多个小卷积核代替大卷积核的重要性,提高了神经网络可训练的最大层数。再一次强调了对于神经网络而言,“深即使好”这一观点,之后若干篇paper的主要思路就是如何将网络层数增大。

网络结构

image.png
其中,Vgg16/19中的16/19指的是只包含卷积层和全连接层,不包含池化层和激活函数,一共有16/19层。

对于Vgg网络,有以下几点说明

  1. Conv1表示卷积核大小为1*1,可以看作是对输入图片的每个像素进行了一个线性变换。
  2. Conv3表示卷积核大小为3*3,是具有感受野的情况下最小的卷积核,Vgg网络相当一部分的贡献在于强调了小卷积核的重要作用。
  3. Conv3-x表示卷积核的输出通道大小为x。
  4. Conv层之后紧邻一个ReLU激活层,如果使用Batch Norm层,三者的顺序为 Conv-BN-ReLU。
  5. MaxPool窗的大小为2*2,步长为2。

核心观点

  1. 多个小卷积核的层叠与大卷积核的感受野相同,但是参数规模更小,例如3*3 + 3*3感受野的规模与 5*5相同。而且多个小卷积核可以搭配更多的激活函数,增强模型的非线性性。
  2. 1*1的卷积核的作用是在不影响卷积层感受野的情况下,增强模型的非线性性。1*1的卷积核在大多数情况下有两种用途,改变输入的channel,增加一层激活函数来增强模型的非线性性。
  3. 更深的网络可以带来更好的表现。
  4. 多尺度训练的重要性,如果我们在相同尺度上进行训练,那么我们可能在一些物体尺度不同的图片上分类错误,因此需要将训练图片随机放缩后进行剪裁。
### VGGNet 深度学习模型架构及其使用 #### 架构概述 VGGNet 是一种经典的卷积神经网络 (CNN),由牛津大学视觉几何组 (Visual Geometry Group) 提出。该模型以其简单而强大的设计著称,主要特点是多层的小型卷积核(通常是 \(3 \times 3\)),以及通过堆叠多个这样的卷积层来增加网络深度。 VGGNet 的核心理念在于证明更深的网络能够更好地捕捉图像特征,从而提高分类性能[^1]。具体来说: - **卷积层**:每一层都采用非常小的感受野 (\(3 \times 3\)) 和步幅为 1 的卷积操作; - **池化层**:每隔几层卷积之后加入最大池化层用于降维; - **全连接层**:最后几个阶段则采用了两个或三个完全连接层来进行最终预测; 这种结构使得 VGGNet 成为了早期探索深层 CNN 性能的重要里程碑之一,并且其变体至今仍然被广泛应用于各种计算机视觉任务中。 #### 使用方法 要在实际项目中部署 VGGNet,通常可以通过预训练权重加载已有的模型并根据特定需求调整最后一层或者整个顶层部分以适应新的类别数目的变化。以下是基于 PyTorch 实现的一个简单的例子: ```python import torch from torchvision import models # 加载带有 ImageNet 预训练权值的标准 VGG16 模型 model = models.vgg16(pretrained=True) # 修改分类器的最后一层以匹配新数据集的目标数量 num_features = model.classifier[-1].in_features model.classifier[-1] = torch.nn.Linear(num_features, num_classes) ``` 上述代码片段展示了如何快速初始化一个具有预训练参数的基础版本 VGG16 并对其进行定制以便处理自定义的数据集问题[^4]。 #### 应用场景 由于 VGGNet 对输入图片尺寸有一定的灵活性支持,加上良好的泛化能力,因此适用于多种图像识别任务,比如物体检测、风格迁移等领域。特别是在资源有限的情况下,较小规模的 VGG 变种如 VGG11 或者更浅层次的选择可能更加合适。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值