Squeeze-and-Excitation Networks(SENet) 学习笔记

最新推荐文章于 2024-05-09 11:10:33 发布

M1kk0

最新推荐文章于 2024-05-09 11:10:33 发布

阅读量354

点赞数

分类专栏：目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_40028858/article/details/107988013

版权

目标检测专栏收录该内容

11 篇文章

订阅专栏

1. 简介

作者提出了一个SE块的概念，它是根据channel之间的相关性来进行显式建模，从而实现自适应地channel-wise上的特征响应，把重要的特征进行强化、不重要的特征进行抑制来提升准确率。

2. 网络结构

在这里插入图片描述

$F_tr$ 是传统的卷积结构，输入为 $H'\times W'\times C'$ 的 $X$ ，和 $H\times W\times C$ 的 $U$ 。

SENet增加的是 $U$ 后面的部分：首先对 $U$ 进行一个Global Average Pooling，即图中的 $F_sq(·)$ ，作者称之为Squeeze，得到一个 $\times 1 \times C$ 的数据。

接着是两个全连接层，即图中的 $F_{ex}(·,W)$ ，作者称之为Excitation。

最后用sigmoid进行归一化，把这个值作为scale乘到 $U$ 的 $C$ 个通道上，作为下一级的输入。

下面来看一些细节。

2.2.1 $F_tr$

$u_c=v_c*X=\sum_{s=1}^{C'}{v_c^s*x^s}$

很简单的一个传统卷积。

2.2.2 Squeeze

$z_c=F_{sq}(u_c)=\frac{1}{H \times W} \sum_{i=1}^H \sum_{j=1}^W{u_c(i,j)}$

就是一个简单的global average pooling，将所有点的信息都平均成了一个值。这一步的意义在于，得到的 $\times 1 \times C$ 的数据代表着 $C$ 个feature map的数值分布情况（scale），是一个全局信息。

2.2.3 Excitation

$s=F_{ex}{z,W}=\sigma(g(z,W))=\sigma(W_2\delta(W_1z))$

$W_1$ 、 $W_2$ 为两个全连接， $W_1$ 的shape为 $\frac{C}{r}\times C$ ， $r$ 是一个缩放参数，作者经过多次试验取了16，经过 $W_1z$ 这样一个全连接层操作，得到一个 $\times 1 \times \frac{C}{r}$ 的数据，把 $C$ 维降到了 $\frac{C}{r}$ 维，并经过一个ReLU函数。

同理，经过一个shape为 $\times \frac{C}{r}$ 的 $W_2$ 之后，恢复为一个 $\times 1 \times C$ 的数据，并经过一个sigmoid函数。

为什么要加两个全连接层？

是为了利用通道间的相关性来训练出真正的scale。前面的squeeze输出都是基于某个channel的feature map，而真正的scale应该基于全部的数据集，需要融合各个通道的feature map信息。

这个s其实是本文的核心，它是用来刻画tensor U中C个feature map的权重。而且这个权重是通过前面这些全连接层和非线性层学习得到的，因此可以end-to-end训练。

2.2.4 $F_{scale}(·,·)$

$\tilde{x}=F_{scale}(u_c,s_c)=s_cu_c$

$u_c$ 是一个二维矩阵， $s_c$ 是一个权重，把 $u_c$ 中的每个值都乘以 $s_c$ 得到带权重的输出。

3. 将SENet插入到其他网络中

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。