主干网络backbone讲解—— Conv4与Resnet12

李问号

已于 2023-04-16 23:17:38 修改

阅读量6k

点赞数 6

分类专栏：研0 小样本学习文章标签：深度学习计算机视觉神经网络

于 2023-04-09 01:56:06 首次发布

本文链接：https://blog.youkuaiyun.com/Bluebro/article/details/130035707

版权

研0 同时被 2 个专栏收录

35 篇文章

订阅专栏

小样本学习

5 篇文章

订阅专栏

文章介绍了两种卷积神经网络结构：Conv-64F和Resnet12。Conv-64F由4个重复的卷积块组成，每个块包含卷积、BatchNorm和ReLU，最后可能有全局最大池化层。Resnet12则包含4个残差块，每个块有3个卷积层，利用残差学习解决梯度消失问题，同时应用DropBlock防止过拟合。这两种网络常用于图像分类和目标识别任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 Conv4

在一些论文中，也称为Conv-64F。其中“64F”表示网络中使用了64个滤波器（filters）

它包含 4 个重复的卷积块，在每个块中包含：

一个 kernel=3，stride=1，padding=1的卷积层；
一个 BatchNorm层；
一个 ReLU ；
一个大小为 2 的最大池化层。

输入图像的大小调整为 3 × 84 × 84 ，经过第一个卷积块后channel从3变成64。

有些论文还会在最后添加一个大小为5的全局最大池化层以降低嵌入的维数，大大减少后期转换的计算负担。

四个卷积块如图所示：
在这里插入图片描述

四个卷积块是相同的，图像shape的变化过程

图像经过第一个卷积块之后，3 × 84 × 84变成64 × 42 × 42（2 × 2最大池化）；
经过第二个卷积块之后，变成64 × 21 × 21;
第三个卷积块输出64 × 10 × 10;
第四个卷积块输出64 × 5 × 5。

图像经过CNN后，输出的是局部特征，一共有 5 × 5=25个局部描述符。如果想要得到全局特征，需要经过5 × 5的最大池化后则输出64 × 1 × 1，再按照channel展平为1维得到，或者通过全局平均池化再按照channel方向展平。

第一个卷积块如下如图所示：
在这里插入图片描述