SENet学习笔记

最新推荐文章于 2025-04-15 15:18:13 发布

_liuzt

最新推荐文章于 2025-04-15 15:18:13 发布

阅读量669

点赞数

分类专栏：经典网络

本文链接：https://blog.youkuaiyun.com/qq_39512995/article/details/111047152

版权

2 篇文章

订阅专栏

CNN的核心构件是卷积算子（卷积核），它能使网络融合每一层局部感受野上的空间和通道信息来提取特征
本文针对通道关系，提出了“Squeeze and Excitation” 块，通过建模通道之间的相互依赖关系，自适应的校准通道方面的特征

we term the “Squeeze-and-Excitation” (SE) block, that adaptively recalibrates channel-wise feature responses by explicitly modelling interdependencies between channels.
在ILSVRC2017分类竞赛中排名第一

显式地建模特征通道之间的相互依赖关系
通过学习的方式来自动获取到每个特征通道的重要程度，然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。
SE block如下图，对于一个输入 $X$ ,其通道数为 $C^{'}$ ,经过卷积等一系列变换后得到一个通道数为 $C$ 的特征 $U$
- 先Squeeze，对通道间的关系进行建模
- 然后进行Excitation操作（两层全连接层），最后使用sigmoid限制到[0,1]内
- 最后将Excitation操作生成的权值乘以 $U$ 的相对应的通道上作为下一层的输入
略微增加模型的复杂性和计算负担
可以将现有网络中的层用SE block替代

下图为SE block的结构，其中 $F_{tr}$ 是卷积操作， $F_{sq}$ 表示Squeeze操作， $F_{ex}$ 表示Excitation操作， $F_{scale}$ 表示加权操作

在这里插入图片描述

用 $V=[v_1,v_2,v_3...,v_C]$ 表示一组卷积核，其中 $v_c$ 表示第 $c$ 个卷积核的参数， $U=[u_1,u_2,....,u_C]$ 代表经过卷积操作的输出， $u_c$ 表示输入 $X$ 经过卷积核为 $v_c$ 的卷积操作之后的输出（即 $U$ 的一个通道）, $C{'}$ 表示输入特征图 $X$ 的通道数，即卷积核的通道数，公式（1）表示常规的卷积操作，为了方便表示省略了偏置项

在这里插入图片描述

每一个卷积核都有局部的感受野，因此卷积操作的每个输出 $U$ 都不能利用感受野之外的上下文信息，为了缓解这个问题，提出了Squeeze操作，通过全局平均池化将全局空间信息压缩到一个channel descriptor（通道描述符）中，公式（2）表示Squeeze操作 $F_{sq}$ , $z_c$ 表示 $z$ 中的第 $c$ 个元素,通过 $U$ 中的第 $c$ 个通道全局平均池化得到（也可以采用其他策略）

在这里插入图片描述

为了利用Squeeze之后的信息，进行第二个操作Excitation（ $F_{ex}$ ）,该操作的目的旨在学习到通道间的相互关系，需满足两个条件：（1）灵活，能够学习到通道间的非线性关系；（2）学习非互斥关系，确保允许强调多个通道，而不是one-hot（一位有效编码，这里表示只强调或保留一个通道）
公式（3）表示Excitation操作 $F_{ex}$ ， $\delta$ 表示ReLU函数，

分别表示两个全连接层的参数， $r$ 表示缩放率，即第一个全连接把 $C$ 个通道压缩成了 $\frac{C}{r}$ 个通道来降低计算量（后面跟了ReLU），第二个全连接再恢复回C个通道（后面跟了Sigmoid（0-1之间））
公式（4）表示加权操作 $F_{scale}$ , $\widetilde{X} = [\widetilde{x_1},\widetilde{x_2}, \widetilde{x_3},...\widetilde{x_C}]和F_{scale}(u_c,s_c)$ 表示标量（权值） $s_c$ 和特征图 $u_c$ 相乘

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

以ResNet50为例，对于224x224的输入图像，ResNet50在一次正向传播中需要大约3.86GFLOPs（浮点运算次数）,当把缩放率 $r$ 设置为16时，SE-ResNet50一次正向传播中需要大约3.87GFLOPs，会造成很少的额外计算，但是SE-ResNet50的精度超过了ResNet50，更接近ResNet-101的精度（7.58GFLOPs）
为了更好地部署，计算了单次CPU推理时间
- ResNet50 164ms
- SE-ResNet50 167ms
公式（5）表示额外引入的参数量， $r$ 表示缩放率， $S$ 表示Block的集合（一个S中若干个Block），表示输出的通道数， $N_s$ 表示 $S$ 中Block的个数（比如残差块的个数）（全连接层中的偏置项忽略不计）