Gather-Excite:Exploiting Feature Context in Convolutional Neural Networks

最新推荐文章于 2025-08-22 13:44:05 发布

原创

最新推荐文章于 2025-08-22 13:44:05 发布 · 5k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#论文研读

Gather-Excite:Exploiting Feature Context in Convolutional Neural Networks
Gather-Excite：在卷积神经网络中利用特征上下文

Abstract

尽管在卷积神经网络（CNN）中使用自底向上的局部运算符可以很好地匹配自然图像的某些统计信息，但它也可能阻止此类模型捕获上下文的远程特征交互。在这项工作中，我们提出了一种简单，轻量级的方法，以在CNN中更好地利用上下文。我们通过引入一对运算符来做到这一点：Gather，可以有效地在很大的空间范围内聚合特征响应，而Excite，可以将合并的信息重新分布到局部特征。就增加的参数数量和计算复杂度而言，这些运算符都很便宜，并且可以直接集成到现有架构中以提高其性能。在多个数据集上进行的实验表明，Gather-Excite可以带来与增加CNN的深度相当的收益，而成本却只是其一小部分。例如，我们发现具有聚集激励运算符的ResNet-50可以在ImageNet上胜过其101层副本，而没有其他可学习的参数。我们还提出了一个参数化的Gather-Excite运算符对，该运算符对可进一步提高性能，使其与最近引入的“挤压和激发网络”相关，并分析这些变化对CNN特征激活统计的影响。

Introduction

卷积神经网络(CNN)[21]是解决图像分类[20，35，9]、目标检测[32]和图像分割[3]等问题的金标准方法。因此，人们对改进的CNN架构非常感兴趣。在计算机视觉中，经常改进视觉表示的一个想法是用在较大上下文中操作的函数来扩充执行局部决策的函数，从而为解决局部歧义提供线索[39]。虽然术语“上下文”是过载的[6]，在这项工作中，我们特别关注特征上下文，即特征提取器响应(即CNN特征地图)作为一个整体捕获的信息，分布在输入图像的整个空间范围内。
在许多标准的CNN结构中，许多特征提取器的感受野理论上已经足够大，足以完全覆盖输入图像。然而，这些领域的有效大小实际上要小得多[27]。这可能是解释为什么在深层网络中改进上下文的使用可以带来更好的性能的一个因素，正如在对象检测和其他应用中反复证明的那样[1，26，48]。
先前的工作已经表明，使用低级别特征的简单集合可以有效地编码视觉任务的上下文信息，并且可能被证明是基于较高级别语义特征的迭代方法的有用替代[44]。最近提出的挤压激励(SE)网络[15]证明了这种方法的有效性，它表明根据输入全范围的特征对特征通道进行重新加权可以提高分类性能。在这些模型中，squeeze操作符充当轻量级上下文聚合器，然后将得到的结果嵌入传递给重新加权函数，以确保它可以利用每个过滤器的局部接受字段之外的信息。
在本文中，我们将以这种方法为基础，进一步探索在整个深层网络体系结构中融入上下文的机制。我们的目标是探索更有效的算法，以及使它们能够很好地工作的基本属性。我们将这些“上下文”模块描述为两个操作符的组合：Gather操作符，它聚合每个特征地图的大邻域上的上下文信息；以及Excite操作符，它通过对聚集进行条件调整来调整特征地图。
利用这种分解，我们绘制了可以在深层网络中利用特征上下文的设计空间，并独立地探索了不同预算符的影响。我们的研究使得我们提出了一种新的、轻量级的Gather-Excite预算符对，该预算符在不同的体系结构、数据集和任务中产生显著的改进，并且对超参数进行了最小程度的调整。我们还研究了操作符对现有深层体系结构学习的分布式表示的影响：我们发现，该机制产生的中间表示表现出较低的类选择性，这表明提供对额外上下文的访问可能会实现更大的功能重用。这项工作中使用的所有模型的代码都可以在https://github.com/hujie-frank/GENet上公开获得。

The Gather-Excite Framework

在本节中，我们将介绍Gather-Excite(GE)框架并描述其操作。
设计的动机是检查CNN的典型信息流。这些模型计算从空间编码逐渐过渡到通道编码的表示层次。更深的层通过在降低分辨率、增加单元的感受野大小以及增加要素通道数量的同时组合前几层的要素来实现更大的抽象性。
视觉词袋模型[5，47，34]证明了将局部描述符中包含的信息汇集在一起以形成局部描述符外的全局图像表示的有效性。受此观察的启发，我们的目标是帮助卷积网络利用包含在由网络本身计算的特征响应领域中的上下文信息。
为此，我们构造了一个轻量级函数来收集大范围邻域上的特征响应，并使用所得到的上下文信息来调制邻域元素的原始响应。具体地说，我们定义了Gather算子ξG和Excite算子ξE，前者聚集给定空间范围上的神经元响应，后者接受聚集和原始输入，以产生与原始输入维度相同的新张量。GE算符对如