【实例分割】论文阅读-CenterMask: Real-Time Anchor-Free Instance Segmentation

最新推荐文章于 2024-06-17 09:18:28 发布

原创

最新推荐文章于 2024-06-17 09:18:28 发布 · 1.6k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#图像分割 #目标检测 #FCOS #CenterMask #语义分割

本文介绍了一种实时无锚点的实例分割方法CenterMask，它通过在FCOS目标检测器上添加空间注意力导向的Mask分支，实现了高精度和快速度。同时，提出了一种改进的骨干网络VoVNetV2，提高了整体性能。

论文：CenterMask : Real-Time Anchor-Free Instance Segmentation
作者：Youngwan Lee and Jongyoul Park Electronics and Telecommunications Research Institute (ETRI), South Korea

Abstract

我们提出了一个简单而有效的无锚点的实例分割，称为CenterMask，它与Mask R-CNN类似向无锚框的一阶段目标检测器（FCOS [33]）添加了一个新颖的空间注意力导向Mask（SAG-Mask）分支。SAG-Mask分支将使用空间关注图预测每个检测到的盒子上的分割Mask，以帮助关注信息像素并抑制噪声。我们还提出了一种改进的骨干网络VoVNetV2，它具有两种有效的策略：（1）残差连接以缓解较大的VoVNet的优化问题[19]，以及（2）有效的压缩激励（eSE），用于处理通道信息丢失问题。借助SAG-Mask和VoVNetV2，我们分别设计了分别针对大型和小型模型的CenterMask和CenterMask-Lite。使用相同的ResNet-101-FPN主干，CenterMask达到了38.3％，超越了以前所有的最新方法同时以更快的速度。 CenterMask-Lite在Titan Xp上也以超过35fps的速度大幅领先于最新技术。我们希望CenterMask和VoVNetV2可以分别作为用于各种视觉任务的实时实例分割和骨干网络的坚实基准。

在这里插入图片描述

1. Introduction

最近，实例分割已取得了超越目标检测的巨大进步。最有代表性的方法，Mask R-CNN [9]，扩展到目标检测（例如，Faster R-CNN [30]），已主导了COCO [23]基准，因为可以通过检测目标然后预测每个框内的像素来轻松解决实例分割问题。但是，即使有很多工作[15、2、3、20、24]用于改进Mask R-CNN [9]，但考虑到实例分割速度的工作却很少。尽管由于YOLACT [1]的并行结构和极其轻巧的Assembly过程，它是第一个实时的一阶段实例分割，但与Mask R-CNN [9]的准确性差距仍然很大。因此，我们旨在通过提高准确性和速度来弥合差距。

Mask R-CNN [9]基于两阶段对象检测器（例如，Faster R-CNN），该对象检测器首先生成候选框，然后预测框的位置和分类，而YOLACT [1]建立在一阶段目标检测器上（ RetinaNet [22]），无需生成候选框即可直接预测。 然而，这些物体检测器严重依赖于预定义锚，该预定义锚对超参数（例如，输入大小，纵横比，比例等）和不同的数据集敏感。此外，由于它们密集地放置锚框以提高查全率，所以过多的锚框会导致正/负样本的不平衡以及较高的计算/内存成本。为了解决锚框的这些缺点，最近，许多工作[18、6、38、39、33、38]倾向于通过使用角/中心点从锚框向无锚的方向转变，这与基于锚框的探测器相比，效率更高，性能更好。
在这里插入图片描述
因此，我们设计了一个简单但有效的无锚框一阶段实例分割，称为CenterMask，它以与Mask R-CNN相同的方式向更高效的一阶段无锚框目标检测器（FCOS [33]）添加了一个新颖的空间注意力导向的Mask分支。图2显示了CenterMask的概述。插入FCOS [33]对象检测器后，我们的空间注意力引导模块（SAG-Mask）分支将使用FCOS [33]检测器中的预测框来预测每个关注区域（RoI）上的分割Mask。 SAG-Mask中的空间注意模块（SAM）帮助Mask分支将注意力集中在有意义的像素上，并压制无关的像素。

在提取每个RoI的特征以进行Mask预测时，应考虑RoI比例来分配每个RoI池。 Mask R-CNN [9]提出了一种对其方式RoIAlign，它不考虑输入比例。因此，我们设计了一种具有比例尺的RoI分配函数，该函数考虑了输入比例尺，是一种更适合的一级目标检测器。我们还提出了一种基于VoVNet [19]的更有效的骨干网络VoVNetV2，由于其一键式聚合（OSA），它比ResNet [10]和DenseNet [14]具有更好的性能和更快的速度。

在Squeeze-Excitation（SE）通道注意模块中，发现全连接层会减小通道大小，从而减少计算负担但会意外地导致通道信息丢失。因此，我们将SE模块重新设计为有效的SE（eSE），用保持通道维度的一个FC层代替了两个FC层，从而防止了信息丢失，进而提高了性能。通过残余连接和eSE模块，我们建议使用各种规模的VoVNetV2。从轻量级VoVNetV2-19，基本VoVNetV2-39 / 57和大型模型VoVNetV2-99，它们对应于MobileNet-V2 [11]，ResNet-50 / 101 [10]和HRNetW18 / 32 [32]和ResNeXt-32x8d [ 36]。

2. CenterMask

在本节中，我们首先回顾无锚点的目标检测器FCOS [33]，它是CenterMask的基本对象检测部分。接下来，我们演示CenterMask的体系结构，并描述如何设计建议的空间注意力引导Mask分支（SAG-Mask）以插入FCOS [33]检测器。最后，提出了一种更有效的骨干网络VoVNetV2，以提高CenterMask在准确性和速度方面的性能。

2.1. FCOS

FCOS [33]是像FCN [26]那样在每个像素的预测方式下无需锚定和建议的物体检测。诸如Faster RCNN [30]，YOLO [29]等最先进的物体检测器]和RetinaNet [22]使用预定义锚框的概念，该锚框需要精心的参数调整和与训练中的IoU相关的复杂计算。如果没有锚框，FCOS [33]会直接预测4D向量以及特征图水平上每个空间位置的类标签。如图2所示，4D向量嵌入了从边界框的四个侧面到位置（例如，左，右，顶部和底部）的相对偏移量。另外，FCOS [33]引入了centerness分支来预测像素到其相应边界框中心的偏差，从而提高了检测性能。为避免锚框的复杂计算，FCOS [33]降低了内存/计算成本，但也优于基于锚框的目标检测器。由于FCOS [33]的效率和良好的性能，我们设计了基于FCOS [33]对象检测器的拟议CenterMask。

2.2. Architecture

图2显示了CenterMask的总体架构。 CenterMask由三部分组成：（1）用于特征提取的主干，（2）FCOS [33]detection head和（3）Mask head。 Mask的生成过程包括：从FCOS [33]中检测物体，然后以像素为单位预测裁剪区域内部的分割Mask。
在这里插入图片描述

2.3. Adaptive RoI Assignment Function

在FCOS [33]box head 中预测候选框后，CenterMask使用与Mask RCNN相同的预测框区域来预测分割掩码。由于RoI是根据特征金字塔网络（FPN [21]）中不同尺度的特征图预测的，因此提取特征的RoI Align [9]应相对于RoI比例在不同的特征图比例下分配。具体而言，必须将大尺度的RoI分配给更深的特征，反之亦然。
在这里插入图片描述

2.4. Spatial AttentionGuided Mask

近来，注意力方法[13、34、40、28]已被广泛地应用于物体检测，因为它有助于专注于重要特征，同时还能抑制不必要的特征。特别是，通道注意[13，12]强调了“什么”来聚焦于特征图的通道，而空间关注[34，4]则关注了“哪里”是一个信息区域。受空间注意机制的启发，我们采用了空间关注模块引导Mask head聚焦有意义的像素并压制无用的像素。

因此，我们设计了一个空间注意力引导模块（SAGMask），如图2所示。一旦RoI Align [9]以14 x 14分辨率提取了预测RoI内的特征，这些特征将被馈送到四个转换层和空间注意模块（SAM）顺序，具体过程如图所示。

class SAG_Mask(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(SAG_Mask, self).__init__()
        mid_channels = in_channels

        self.fisrt_convs = nn.Sequential(
            Conv3x3BNReLU(in_channels=in_channels, out_channels=mid_channels