Polar Mask：如何使用极坐标表示方法对单镜头实例进行分割？

最新推荐文章于 2025-11-17 09:40:39 发布

原创

最新推荐文章于 2025-11-17 09:40:39 发布 · 2.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #神经网络 #深度学习

介绍PolarMask，一种单镜头实例分割方法，使用极坐标表示和密集距离回归，展现出色性能。

Polar Mask：如何使用极坐标表示方法对单镜头实例进行分割?

PolarMask: Single Shot Instance Segmentation with Polar Representation_arXiv:1909.13226v2 [cs.CV] 10.Oct.2019(本人自译，转载译本需经许可)

文章目录

Polar Mask：如何使用极坐标表示方法对单镜头实例进行分割?

Abstract：

在本文中，我们介绍了一种锚框免费和单发实例分割方法，该方法在概念上简单，完全卷积，可以通过轻松地嵌入大多数现成的检测方法中，用作实例分割的蒙版预测模块。
我们的方法称为PolarMask，将实例分割问题公式化为实例中心分类和极坐标中的密集距离回归。此外，我们提出了两种有效的方法来分别处理高质量中心样本的采样和密集距离回归的优化，这可以显着提高性能并简化训练过程。在没有挑战性的情况下，PolarMask在具有挑战性的COCO数据集上进行单模型和单尺度培训/测试时，蒙版mAP达到32.9％。首次，我们展示了一个更简单，更灵活的实例细分框架，可实现具有竞争性的准确性。我们希望所提出的PolarMask框架可以作为单个镜头实例分割任务的基础和强大的基准，可以在github.com/xieenze/PolarMask上找到代码。

1.introduction：

实例分割是计算机视觉中的基本任务之一，它可以实现众多下游视觉应用。由于它需要预测图像中每个实例的位置和语义掩码，因此具有挑战性。因此，可以通过边界框检测然后在每个框内进行语义分割来解决直觉上的实例分割，该分割采用两阶段方法，例如Mask R-CNN。视觉界的最新趋势在设计更简单的边界框检测器管线[14、18、25、26、28]和后续的实例智能识别任务（包括实例分割[2,4,29]）

上花费了更多的精力。这里我们工作的主要重点。因此，我们的目标是设计一种概念上简单的模板预测模块，该模块可以轻松插入许多现成的检测器中，从而实现实例分割。

实例分割通常通过在包围框包围的空间布局中进行二进制分类来解决，如图1（b）所示。这样的像素到像素对应预测是奢侈的，尤其是在单次拍摄方法中。相反，我们指出，如果获得轮廓，则可以成功且有效地恢复蒙版。图1（c）显示了一种定位轮廓的直观方法，该方法可预测组成轮廓的点的笛卡尔坐标。在这里，我们称其为笛卡尔表示。第二种方法是极坐标表示法，该方法将角度和距离作为坐标来定位点，如图1（d）所示。

在这项工作中，我们设计基于极坐标表示的实例分割方法，因为它的固有优点如下：（1）极坐标的原点可以看作对象的中心。（2）从原点开始，轮廓上的点由距离和角度确定。（3）角度自然是定向的，因此将点连接到整个轮廓非常方便。我们声称笛卡尔表示法可能会表现出相似的前两个属性。但是，它缺乏第三特性的优点。

我们通过使用最新的对象检测器FCOS实例化这种实例分割方法，主要是因为其简单性。请注意，可以使用其他检测器，例如RetinaNet，YOLO，而对我们的框架进行最小的修改。具体来说，我们提出PolarMask，将实例分割公式化为实例中心分类，并在极坐标中表示密集距离回归，如图2所示。该模型获取输入图像，并预测从采样的正位置（实例中心的候选）到目标的距离。每个角度的实例轮廓，并在组装后输出最终蒙版。

PolarMask的总体流程几乎与FCOS一样简单和干净。它引入了可忽略的计算开销。简洁和效率是单镜头实例分割的两个关键因素，PolarMask成功实现了这些目标。

此外，PolarMask可以看作是FCOS的泛化，或者FCOS是PolarMask的特例，因为包围盒可以被视为只有4个方向的最简单的蒙版。因此，建议在掩模批注可用的地方使用PolarMask而不是FCOS进行实例识别[5，19]。
为了最大程度地发挥极地表示的优势，我们提出了极地中心度和极地IoU损耗，分别处理高质量中心样本的采样和密集距离回归的优化。它们相对提高了掩模精度约15％，在严格的本地化指标下显示出可观的收益。在没有挑战性的情况下，PolarMask在具有挑战性的COCO数据集上进行单模型和单规模培训/测试时，蒙版mAP达到32.9％。
这项工作的主要贡献有三方面：

我们引入了一种称为PolarMask的实例分割新方法，以在极坐标中对实例蒙版进行建模，该方法将实例分割转换为两个并行任务：实例中心分类和密集距离回归。 PolarMask的主要期望特征是简单有效。

第一次，我们展示了实例分割的复杂性，无论是在设计还是在计算复杂性方面，都可以与边界框对象检测相同。

我们提出了针对我们的框架量身定制的Polar IoU损耗和Polar Centerity。我们显示，与标准损耗（例如，smooth-l1损耗）相比，提出的Polar IoU损耗可以极大地简化优化并显着提高精度。同时，Polar Centerness改进了FCOS中“中心”的原始概念，从而进一步提高了性能。

与更复杂的单阶段方法（通常涉及多尺度训练和更长的训练时间）相比，我们首次展示了一个更简单，更灵活的实例细分框架，可实现竞争性能。我们希望PolarMask可以作为单镜头实例分割的基础和强大的基准。

2.Related Work：

Two-Stage Instance Segmentation :

两阶段实例细分通常将此任务表述为“先检测后再细分”的范例[16、12、20、15]。他们通常会检测边界框，然后在每个边界框的区域中进行分割。 FCIS的主要思想是完全卷积地预测一组位置敏感的输出通道。这些通道同时处理对象类，框和蒙版，从而使系统快速运行。基于Faster R-CNN的Mask R-CNN，仅添加了一个附加的mask分支，并使用RoI-Align代替RoIPooling以提高准确性。继Mask RCNN之后，PANet引入了自下而上的路径增强，自适应特征池和全连接融合，以提高实例分割的性能。 Mask Scoring R-CNN通过添加mask IoU分支从分类评分中重新获得mask的置信度，这使网络可以预测mask和ground-truth的IoU。

总之，上述方法通常包括两个步骤，首先是检测边界框，然后在每个边界框内进行分割。它们可以实现最先进的性能，但通常速度较慢。