背景
SE Net - Squeeze-and-Excitation Networks
论文提出了一个SE(Squeeze-and-Excitation)模块,该模块主要的功能是对各个通道进行权重的分配,就像Attention一样,帮助网络把重要的特征信息学习到。
整体的框图如下:
其中X指输入,U是主干网络每一层卷积层的输出,表示结合了权重之后最终的输出。
Squeeze操作
该操作是利用全局的池化,将大小为C×H×WC×H×WC×H×W的输入特征综合为C×1×1C×1×1C×1×1的特征描述(description),对于一张特征图来说,计算如下(后面作者对比了到底是选择平均池化还是最大池化)。
Excitation操作
经过上述的Squeeze操作后,网络仅仅得到了一个全局描述,这个描述并不能作为该通道的权重。
因此作者提出Excitation操作,该操作主要的目的是比较全面的获取到通道级别的依赖。同时应该满足灵活和能够学习非互斥强调的能力。
基于上述的目的和要求,该操作包含了两个全连接层和Sigmoid激活函数。全连接层能够很好的融合全部的输入特征信息,而Sigmoid函数也能够很好的将输入映射到0~1区间。
该操作的公式如下:
其中z为Squeeze操作获得的全局描述,表示Relu函数,保证输出为正,
为两个全连接层,其中
,
,其中r为缩放参数,主要用于减轻网络的计算复杂度和参数量。后面作者也对该参数进行了一些尝试。
融合操作
网络经过上述Excitation之后,就获得了输入特征图U的各个通道的权重,剩下的就是将权重和原始的特征融合了,就是简单的乘法运算:
SE block在3D医学图像上的应用:3D SE block
3D SE block压缩时,将每个通道的3D(D*H*W)的特征图通过3D全局平均池化压缩成1个标量,这对于大尺寸的3D输入来说,全局平均池化的捕获能力有限,将丢失了太多的空间信息。
3D ‘Project & Excite’ Module
压缩部分
将每个通道的3D(D*H*W)的特征图沿分别沿3个轴进行2D的全局平均池化得到,
和
,分别将他们平铺到维度H*W*D*C,然后进行元素加得到
扩展部分
和SE差不多