文章目录
前言
在上一篇讲SENet的文章中,里面提到的Squeeze-excitation block引入的技术可以被称作是通道注意力机制:channel attention。
既然提到了注意力机制,那么这几篇就来说说注意力机制的事情,SENet是在2019年提出的,在2015年的时候,就有一篇论文提出了另一个维度的注意力机制:空间注意力机制,论文为:Spatial Transformer Networks。
SENet的基本逻辑是通过一个Squeeze的模块按通道提取出每个通道的特征(global pooling),然后通过一个excitation模块来综合和分配每个通道的注意力权重(在反向传播过程中训练得到的一个通道注意力权重)。这样的一个通道的权重分配就别称作通道注意力机制(权重大的就相当于分配了更多的注意力过去),详情可以参考我之前的文章。
那么这个空间注意力模型是解决什么问题呢?在论文的一开篇就提到了:Convolutional Neural Networks define an exceptionally powerful class of models, but are still limited by the lack of ability to be spatially invariant to the input data in a computationally and parameter efficient manner.
也就是要增加CNN网络模型的空间不变性问题。空间不变性是个啥意思呢,大致意思呢是说:不变性意味着即使目标的外观发生了某种变化,但是依然可以把它识别出来。这对图像分类来说是一种很好的