VGG模型

特点:采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(11x11,7x7,5x5)

采用堆积的小卷积核的原因:对于给定的感受野(与输出有关的输入图片的局部大小),采用堆积的小卷积核是优于采用大的卷积核,因为多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价还比较小(参数更少)。比如,3个步长为1的3x3卷积核的一层层叠加作用可看成一个大小为7的感受野(其实就表示3个3x3连续卷积相当于一个7x7卷积),其参数总量为 3x(9xC^2) ,如果直接使用7x7卷积核,其参数总量为 49xC^2 ,这里 C 指的是输入和输出的通道数。很明显,27xC^2小于49xC^2,即减少了参数;而且3x3卷积核有利于更好地保持图像性质。

感受野:在卷积神经网络中,感受野(Receptive Field)是指特征图上的某个点能看到的输入图像的区域,即特征图上的点是由输入图像中感受野大小区域的计算得到的

vgg网络结构:

- VGG16包含了16个隐藏层(13个卷积层和3个全连接层)

- VGG19包含了19个隐藏层(16个卷积层和3个全连接层)

卷积层:每一个卷积核都是3×3。vgg-block内的卷积层都是同结构的。意味着输入和输出的尺寸一样,且卷积层可以堆叠复用

从数学的层次来讲,卷积就是将卷积核大小内的像素点,经过加权和,得到一个新的像素点。这个像素点在图像的层次上就可以反映原图像的特征。原图像对应卷积的位置大小称为得到像素点对应的感受野。随着卷积核的平移,原图像的像素点会通过卷积得到一张新的特征图,经过卷积后,输出的特征图可有效提取原图像的特征,达到图像识别的功能。

池化层:maxpool层将前一层(vgg-block层)的特征缩减一半,使得尺寸缩减的很规整,从224-112-56-28-14-7。

池化过程在一般卷积过程后。池化(pooling) 的本质,其实就是采样。Pooling 对于输入的 特征图Feature Map,选择某种方式对其进行降维压缩,以加快运算速度。

VGG16内存

VGG16模型所需要的内存容量

  • 通过增加深度能有效地提升性能;
  • VGG16是最佳的模型,从头到尾只有3x3卷积与2x2池化,简洁优美;
  • 卷积可代替全连接,可适应各种尺寸的图片。

参考:LeNet、AlexNet等(一文读懂LeNet、AlexNet、VGG、GoogleNet、ResNet到底是什么? - 知乎 (zhihu.com)

### PyTorch 中实现 VGG 模型 VGG 是一种经典的卷积神经网络架构,在图像分类和其他计算机视觉任务中表现出色。该模型由牛津大学 Visual Geometry Group 提出,通过增加网络深度来提升性能[^4]。 #### VGG 的基本特性 - 输入图片大小固定为 224×224 像素的 RGB 图像。 - 主要采用 3×3 尺寸的小卷积核和 2×2 max pooling 层。 - 结构非常规整,每层之间的连接方式简单明了。 - 隐藏层激活函数通常选用 ReLU 函数。 #### 使用 PyTorch 实现 VGG16 下面是一个简单的例子展示如何利用 PyTorch 来构建并初始化一个预训练好的 VGG16 模型: ```python import torch from torchvision import models, transforms # 设置设备(CPU 或 GPU) device = 'cuda' if torch.cuda.is_available() else 'cpu' # 加载预训练的 VGG16 模型 model = models.vgg16(pretrained=True) # 移动模型至相应计算资源上 model.to(device) # 切换评估模式 model.eval() ``` 对于更复杂的场景,比如微调现有模型或从头开始训练新模型,则可以按照如下方式进行调整: ```python class CustomVGG(nn.Module): def __init__(self, num_classes=1000): super(CustomVGG, self).__init__() # 定义基础特征提取器 self.features = nn.Sequential( ... # 这里省略具体细节,实际应用时应参照官方文档填写完整的卷积层定义 ) # 分类头部 self.classifier = nn.Linear(in_features=..., out_features=num_classes) def forward(self, x): x = self.features(x) x = x.view(x.size(0), -1) # 扁平化处理 x = self.classifier(x) return x if __name__ == '__main__': custom_vgg = CustomVGG(num_classes=10).to(device) criterion = nn.CrossEntropyLoss().to(device) optimizer = optim.SGD(custom_vgg.parameters(), lr=0.001, momentum=0.9) ``` 上述代码片段展示了如何创建自定义版本的 VGG 模型,并设置了损失函数与优化算法以便后续训练过程中的参数更新[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值