卷积核、池化层输出尺寸计算公式，VGG16神经网络结构图及各层推导及PyTorch实现代码

最新推荐文章于 2024-07-11 16:32:53 发布

原创

最新推荐文章于 2024-07-11 16:32:53 发布 · 4.8k 阅读

CC 4.0 BY-SA版权

文章标签：

本文详细解析了VGG16卷积神经网络的结构与工作原理，包括卷积层、池化层及全连接层的计算过程，并提供了PyTorch实现代码。

使用卷积处理图像，输出的图像的尺寸为：

$W_{out}=\frac{W_{in}-W_{filter}+2P}{S}+1$

$H_{out}=\frac{H_{in}-H_{filter}+2P}{S}+1$

公式中 $W_{filter}$ 和 $H_{filter}$ 分别表示卷积核（filter）的宽和高。 $P$ （即padding）为在图像边缘填充的边界像素层数。 $S$ 为步长（Stride）。

图像在输入卷积层之前，有两种边界像素填充方式：

池化层可以对原始数据进行压缩，减少模型的计算参数，提升运算效率。常用的池化层为：平均池化层和最大池化层。池化层处理的数据一般是经过卷积层处理后生层的特征图。

经过池化层处理的图像，输出的图像的尺寸为：

$W_{out}=\frac{W_{in}-W_{filter}}{S}+1$

$H_{out}=\frac{H_{in}-H_{filter}}{S}+1$

公式中 $W_{filter}$ 和 $H_{filter}$ 分别表示卷积核（filter）的宽和高。 $W_{in}$ 、 $H_{in}$ 和 $W_{out}$ 、 $H_{out}$ 分别代表输入、输出的特在图的宽和高。 $S$ 为步长（Stride）。输入的特征图深度和卷积核深度一致。

VGGNet是牛津大学计算机视觉组合和Google DeepMind公司研究员共同开发的深度卷积神经网络。是一个经典的神经网络。下面对其结构进行分析。这里对VGG16D进行分析。
VGG16论文中给出的配置：
在这里插入图片描述

特点：VGG16D卷积核滑动窗口尺寸统一为 $3\times 3$ （即感受野尺寸receptive field size为3），步长统一为1，有16层的VGG16模型和19层的VGG19模型两种类型。相对于AlexNet一共八层的结构，增加了层数。增加层数和更小的卷积核能有效提升模型的性能。

分析：

（1）Input层：VGG16的卷积神经网络默认输入数据必须是 $224\times 224\times 3$ 的图像，即高和宽224像素，色彩通道RGB3个，和AlexNet的要求是一致的。

（2）Conv1_1：卷积核维度为 $3\times 3\times 3$ ，步长1，Padding为1。根据卷积核计算公式：

$W_{out}=\frac{W_{in}-W_{filter}+2P}{S}+1=\frac{224-3+2\times 1}{1}+1=224$

$H_{out}=\frac{H_{in}-H_{filter}+2P}{S}+1=\frac{224-3+2\times 1}{1}+1=224$

即输出的特征图高和宽都为224，该卷积层描述为：Conv1:64x224x224，即输出的特在图除了尺寸 $224\times 224$ 外，还要深度为64，所以要进行64次卷积，最后输出的特征图维度为： $224\times 224\times 64$ 。

（3）Conv1_2：卷积核维度为 $3\times 3\times 64$ （卷积核的深度要与上层输出且输入本层的深度一致），步长1，Padding为1。根据卷积核计算公式：

$W_{out}=\frac{W_{in}-W_{filter}+2P}{S}+1=\frac{224-3+2\times 1}{1}+1=224$

2 条评论