《FcaNet: Frequency Channel Attention Networks》
question
常见的注意力机制,都是默认将GAP(global average pooling )作为一个不可或缺的预处理过程,然而文中提出GAP是频域中特征分解的一个特例,因此提出在频域进行注意力机制的预处理过程。
对于channel attention,GAP由于简单和高效就被用来计算每个channel的标量代表该channel的重要性。然而GAP不能捕捉丰富的输入模式信息,以及当处理不同输入时缺少特征多样性。因此就有这个问题:仅仅均值信息是否足够表示各种通道。
分析过程
不同的channel可能有同样大小的均值,然而它们对于的语义信息却不同。从频域角度来分析,文中证明了GAP等同于DCT(discrete cosine transform)的最低频率,丢弃了其他包含有用信息的频率元素;CBAM也显示了仅仅使用GAP是不足够的,同时使用GAP和global max pooling可以增强特征多样性。
这篇论文提出了一个multi-spectral channel attention framework。可以利用多个但有限的频率信息增强特征多样性。
Channel attention