&原文信息
原文题目:《OCNet:Object Context for Semantic Segmentation 》
原文引用:Yuan Y, Huang L, Guo J, et al. OCNet: Object context for semantic segmentation[J]. International Journal of Computer Vision, 2021, 129(8): 2375-2398.
原文链接:https://sci-hub.ru/10.1007/s11263-021-01465-9
https://sci-hub.ru/10.1007/s11263-021-01465-9
0.摘要
在本文中,我们通过一种名为对象上下文的新的上下文聚合方案来解决语义分割任务,该方案旨在增强对象信息的作用。受到每个像素的类别是从其所属对象继承的事实的启发,我们将每个像素的对象上下文定义为在图像中与给定像素属于相同类别的像素集合。我们使用一个二元关系矩阵来表示所有像素之间的关系,其中值为1表示两个选定的像素属于相同的类别,值为0表示不属于相同类别。
我们提出使用密集关系矩阵作为二元关系矩阵的替代品。密集关系矩阵能够强调对象信息的贡献,因为与其他像素相比,关系得分在对象像素上通常较大。考虑到密集关系矩阵估计与输入大小相关,需要二次计算开销和内存消耗,我们提出了一种高效的交错稀疏自注意力方案,通过两个稀疏关系矩阵的组合来建模所有像素之间的密集关系。为了捕捉更丰富的上下文信息,我们进一步将交错稀疏自注意力方案与传统的多尺度上下文方案(包括金字塔池化和空洞空间金字塔池化)相结合。我们通过在Cityscapes、ADE20K、LIP、PASCAL-Context和COCO-Stuff等五个具有挑战性的基准测试中展示了我们方法的优势和竞争性表现。
关键词:语义分割、上下文、自注意力
1.引言
语义分割是计算机视觉中的一个基础主题,对于各种场景理解问题至关重要。它通常被定义为预测每个像素的类别,即像素所属对象的类别。我们主要关注通过明确地确定像素所属的对象区域来提高像素分类准确性。
自从全卷积网络(FCN)(Long et al.,2015)的开创性方法以来,基于深度卷积神经网络的广泛研究已经在解决语义分割问题上进行了大量的努力。原始的FCN方法存在两个主要缺点:降低了特征分辨率,导致丢失了详细的空间信息;有效感受野较小,无法捕捉长程依赖关系。解决上述缺点的两个主要方法路径是:
(i)提高特征图的分辨率,以改善空间精度或通过所有阶段保持高分辨率响应图,例如通过扩张卷积(Chen et al.,2018;Yu and Koltun,2016)、解码器网络(Badrinarayanan et al.,2017;Ronneberger et al.,2015)或高分辨率网络(Sun et al.,2019a,b);
(ii)利用全局上下文来捕捉长程依赖关系,例如ParseNet(Liu et al.,2015)、DeepLabv3(Chen et al.,2018)和PSPNet(Zhao et al.,2017)。
在本工作中,我们专注于第二种方法路径,并提出了一种更高效的上下文方案。我们将像素的上下文定义为一组选择的像素,并将其上下文表示定义为所有选择像素表示的聚合,如果没有特别说明。
大多数以前的代表性研究主要利用从空间上相邻或采样的像素形成的多尺度上下文。例如,PSPNet(Zhao et al.,2017)中的金字塔池化模块(PPM)将所有像素分为多个区域,并选择与像素位于同一区域的所有像素作为其上下文。DeepLabv3(Chen et al.,2017)中的空洞空间金字塔池化模块(ASPP)选择不同膨胀率的像素作为像素的上下文。因此,PPM上下文和ASPP上下文的选择像素往往是对象像素、相关背景像素和无关背景像素的混合。鉴于每个像素的类别实质上是它所属对象的类别,我们应该增强构成对象的对象像素。
为了明确强调对象像素的贡献,我们提出了一个对象上下文,旨在仅收集与给定像素属于相同类别的像素作为其上下文。与传统的多尺度上下文方案相比,我们的对象上下文更加关注必要的对象信息。尽管准确估计对象上下文并不是一项容易的任务,但我们经验性地发现粗略估计的对象上下文已经在各种基准测试中胜过了PPM和ASPP方案。
对于给定的像素,我们可以使用一个二进制向量来记录属于与其相同类别的像素,值为1,否则为0。因此,可以使用一个N×N的二进制关系矩阵来记录N个像素之间的逐对关系。由于计算二进制关系矩阵是不可行的,我们使用一个密集关系矩阵作为其替代品,其中每个关系值是基于高层特征的内积相似性计算得出的。因此,语义相似的像素的关系值往往较大。在我们的实现中,我们使用传统的自注意机制(Vaswani et al., 2017)来预测密集关系矩阵,这需要O(N^2)的计算复杂度。为了解决效率问题,我们提出了一种新的交错稀疏自注意机制,通过两个稀疏关系矩阵来近似密集关系矩阵,显著提高了效率同时保持性能。为了说明我们的方法能够增强对象像素,我们在图1中展示了一些预测的密集关系矩阵的示例,其中对象像素的关系值大于背景像素的关系值。
我们进一步说明了两个扩展来捕捉更丰富的上下文信息:
(i)金字塔对象上下文,在PSPNet(Zhao et al.,2017)之后的空间金字塔划分生成的每个子区域中估计对象上下文。
(ii)空洞空间金字塔对象上下文,将ASPP(Chen et al.,2017)与对象上下文相结合。
我们总结我们的主要贡献如下:
-我们提出了一个明确增强对象信息的新对象上下文方案。
-我们提出使用高效的交错稀疏自注意机制来实现对象上下文方案,与传统的自注意机制相比,大大降低了复杂性。
-我们基于三种对象上下文模块构建了OCNet,并在包括Cityscapes、ADE20K、LIP、PASCAL-Context和COCO-Stuff在内的五个具有挑战性的语义分割基准中取得了竞争性能。

图1:说明预测的密集关系矩阵。
第一列展示了来自Cityscapes验证集的示例图像,并分别用9标记了对象(汽车、人和道路)上的三个像素。
第二列展示了地面真实分割图。
第三列展示了三个像素的密集关系矩阵(或近似的对象上下文图)。
我们可以看到,与所选像素属于相同类别的像素对应的关系值往往较大。
2.相关工作
分辨率。早期基于传统的全卷积网络(FCN)(Long et al.,2015)的研究应用连续的卷积步幅和池化操作来提取具有高级语义信息的低分辨率特征图。例如,ResNet-101的输出特征图大小是输入图像的1/32,这种显著的空间信息丢失是准确的语义分割面临的主要挑战之一。为了生成高分辨率的特征图而不损失太多的语义信息,许多研究(Badrinarayanan et al.,2017;Chen et al.,2017;Ronneberger et al.,2015;Sun et al.,2019a;Yu and Koltun,2016)提出了各种有效的机制。在本文中,我们采用了空洞卷积(Chen et al.,2017;Yu and Koltun,2016)在ResNet-101上,通过遵循PSPNet(Zhao et al.,2017)相同的设置,将输出步幅从32增加到8。此外,我们还基于最近的HRNet(Sun et al.,2019a)进行了实验,其输出步幅为4。我们经验证实,与传统的多尺度上下文机制PPM和ASPP相比,我们的方法在高分辨率输出特征图方面更加高效。更详细的比较结果总结在表4中。
上下文。上下文在各种计算机视觉任务中起着重要作用,其形式多种多样,例如全局场景上下文、几何上下文、相对位置、3D布局等。上下文已经在目标检测(Divvala et al.,2009)和部分检测(Gonzalez-Garcia et al.,2018)中进行了研究。
&nbs
OCNet:对象上下文池化用于语义分割

OCNet是一种用于语义分割的新方法,它通过对象上下文池化模块来增强对象信息。文章提出了一种名为交错稀疏自注意力的机制,以高效地模拟像素间的密集关系,特别是在处理高分辨率输入时,比传统的自注意力机制更节省计算资源。通过与传统的多尺度上下文方案(如PPM和ASPP)以及自注意力方案的比较,OCNet在多个基准测试上展现出竞争力。此外,OCNet还与其他方法(如非局部神经网络)进行了比较,显示了其在复杂度和性能之间的良好平衡。
最低0.47元/天 解锁文章
1125

被折叠的 条评论
为什么被折叠?



