本文由新加坡国立大学,Oxford,南开大学联合提出。
背景:空间池化在捕获用于场景分析等像素级预测任务的远程上下文信息方面非常有效。
传统池化:规则形状N×N的常规空间池化
本文的方法:引入一种称为条带池化的新池化策略来重新考虑空间池化的公式,该策略考虑了一个长而窄的核,即1×N或 N×1。
本文基于条带池化,通过以下步骤研究空间池化体系结构设计:
1)引入一种新的条带池化模块,该模块使骨干网络可以有效地对远程依赖进行建模
2)提出了一个以各种空间池化为核心的构建块
3)比较条带池化和常规空间池化技术的性能。
优势:两种基于池化的设计都是轻量级的,并且可以在现有的场景解析网络中充当有效的即插即用模块
代码 https://github.com/Andrew-Qibin/SPNet.git
1.引言
背景:场景解析,也称为语义分割,旨在为图像中的每个像素分配一个语义标签。作为最基本的任务之一,广泛应用于计算机视觉和图形应用。
进展:基于全卷积网络(FCN)的方法在场景解析种捕获高级语义特征的能力方面取得了很大的进步。
传统方法:提高对CNN中的远程依赖建模的能力的一种方法是采用自注意力或non-local模块;扩展卷积,目的是在不引入额外参数的情况下扩展CNN的感受野;概述图像全局线索的全局/金字塔池化。
缺陷:这些方法大多会叠加局部卷积和池化操作,因此无法很好地应对复杂问题。限制了它们在捕获现实场景中广泛存在的上下文的灵活性。
本文的方法:为了更有效地捕获远程依赖,本文利用空间池化来扩大CNN的感受野并收集信息性上下文,提出了条带池化的概念。
作为全局池化的替代方法,条带池化具有两个优点。
1.如图1a和1c的顶部所示,它沿一个空间维度部署较长的内核,因此可以捕获孤立区域的远程关系。
2.沿其他空间维度保持狭窄的内核,这有助于捕获局部上下文并防止无关区域干扰标签预测。
与空间池化的区别:集成长而狭窄的池化内核使场景解析网络可以同时聚合全局和本地上下文。
核心思想:首先,设计一个条带池化模块(SPM),以有效地扩大骨干网络的感受野。SPM由两条途径组成,它们专注于沿水平或垂直空间维度编码远程上下文。对于合并特征图中的每个空间位置,它会对其全局水平和垂直信息进行编码,然后使用这些编码来平衡其自身的权重以进行特征修饰。
此外,本文提出了一种附加残差构建模块,称为混合池化模块(MPM),在高级语义级别上对远程依赖进行建模。它通过利用具有不同内核的池化操作来收集内容丰富的上下文信息,以探查具有复杂场景的图像。为了证明所提出的基于池化的模块的有效性,本文介绍了SPNet,它将这两个模块都集成到ResNet主干中。
图 1 条带池化与空间池化
这项工作的贡献如下:
(i)研究空间池化的常规设计并提出了条带池化的概念,该概念继承了全局平均池化的优点,可以收集长期依赖关系,同时关注局部细节。
(ii)设计了条带池化模块和混合池化模块。 这两个模块作为有效的附加模块插入到任何骨干网络中,以生成高质量的分段预测。
(iii)提出将上述两个基于池化的模块集成到单个体系结构中的SPNet,它在基准上实现了重大改进,并在广泛使用的场景解析基准数据集上建立了最新的技术成果。
2.方法
总览:首先给出条带池化的概念,然后介绍基于条带池化的两种模型设计,以演示其如何改善场景解析网络。最后,描述解析网络的整个体系结构。
图 2 条带池化模块
2.1条带池化
先简短回顾一下空间平均池化 令x∈RH×Wx\in R^{H\times W}x∈RH×W,是一个二维输入张量,其中H和W分别是空间的高度和宽度。 在平均池化层中,需要池化的空间范围(h×w)。其中h除以H,w除以W。那么合并后的输出y也是一个具有高度Ho=HhH_o=\frac{H}{h}Ho=hH和宽Wo=HhW_o=\frac{H}{h}W