【CenterMask】《CenterMask：Single Shot Instance segmentation with Point Representation》

最新推荐文章于 2024-10-10 08:34:44 发布

原创

最新推荐文章于 2024-10-10 08:34:44 发布 · 1.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#CenterMask #Hourglass #CenterNet

本文提出一种简单、实时、锚点自由的实例分割算法CenterMask，结合全局和局部预测，有效解决了实例区分和像素级定位问题，达到34.5 mask AP和12.3 fps。

在这里插入图片描述
CVPR-2020

和《CenterMask：Real-Time Anchor-Free Instance Segmentation》重名了，两者同为 CVPR-2020，巧了还同时做的 Instance Segmentation

1 Background and Motivation

实例分割（instance segmentation）是一个基础且具有挑战性的计算机视觉任务，它需要定位、分类、分割出每个实例！兼具目标检测（object detection）和语义分割（semantic segmentation）视觉任务的特点！

目前 SOTA 的实例分割方法大多是基于 two-stage 的目标检测器，虽然 one-stage 目标检测器正在引领潮流（特别是 anchor-free 的方法），但只有少数文献聚焦于 one-stage 的实例分割。

本文，作者旨在设计一个简单的、 one-stage 的、anchor-free 的实例分割算法！

实例分割比目标检测难得多（边界的定义，一个是奇形怪状，一个是矩形框），对于 one-stage 的实例分割来说，主要存在如下两个挑战：

Object instances differentiation：如何有效的区分实例，特别是当他们属于同一类别时（抱团取暖的时候，类似于细胞的粘黏情况）
Pixel-wise feature alignment：如何 preserve 像素级的定位信息，从而进行精确度的边界定位—— pixel misalignment problem，eg，mask rcnn 是采用 RoIAlign 来解决这个问题的

为了解决上述两个问题，作者设计两条并行的分支来预测 mask

Local Shape prediction（coarse、instance-aware）：在 local 区域预测一个大致的 mask，即使重叠，也可以区分不同的分割
Global Saliency generation（precise、instance-unaware）：segments the whole image in a pixel-to-pixel manner，实现 pixel-wise alignment.

2 Related Work

Two-stage Instance Segmentation：detect-then-segment，先检测，再分割！eg：Mask RCNN、PANet
One-stage Instance Segmentation：
- global-area-based，eg：InstanceFCN、YOLACT，优点，maintain the pixel-to-pixel alignment which makes masks precise, 缺点 but performs worse when objects overlap
- local-area-based，例如 PolarMask、TensorMask，能较好的处理 overlap 情况，但 mask 的定位比较粗糙

作者采用结合 one-stage 实例分割方法中 global-area-based 和 local-area-based 方法的优点，设计提出了 CenterMask，既保证了 pixel-to-pixel alignment，又保证了能有效的分割实例（特别是重叠的情况）

3 Advantages / Contributions

提出了 one-stage、anchor-free 的 CenterMask 实例分割方法，在 COCO 数据集上达到了 34.5 mask AP，12.3 fps，有一定的通用性，很容易嵌入到 one-stage 的目标检测方法中去（实现实例分割），eg：FCOS
提出的 Local Shape representation 模块，能在重叠情况下有效的分割实例
提出的 Global Saliency Map 模块，能 realize pixel-wise feature alignment naturally

4 Method

在这里插入图片描述
在 Center 点被预测出来的基础上，

Local Shape representation + Global Saliency Map = Mask

4.1 Local Shape Prediction

作者想用中心点对应的 representation 来表示 instance，但是 representation 是固定的（如下图的 $1×1×S^2$ ），不好表示各种大小的 instance，因此作者采用了如下方法，新增了一条预测形状的分支，来 resize 固定的representation
在这里插入图片描述

$P$ 是来由 backbone 提取出来的 feature map
$F_{shape} \in \mathbb{R}^{H × W ×S^2}$ ，Shape head：对于每个像素点 $F_{shape}(x,y)$ ——中心点，其负责预测的实例形状用 $1×1×S^2$ 的向量来表示，然后 reshape 成 $S \times S$ 大小，最后根据 $F_{size}$ 预测出的 $h$ 和 $w$ resize 成 $h \times w$ 的形状
$F_{size} \in \mathbb{R}^{H × W ×2}$

最低0.47元/天解锁文章