目标检测|新的目标表示方法RepPoints

最新推荐文章于 2025-01-11 10:38:53 发布

原创

最新推荐文章于 2025-01-11 10:38:53 发布 · 1.1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

本文介绍论文《RepPoints: Point Set Representation for Object Detection》，该文抛弃矩形边框，提出RepPoint作为物体更好的代表，基于此发展了anchor - free的检测器RPDet。实验表明，RPDet能取得和当前SOTA的基于anchor的检测器一样的性能，未来语义丰富的目标表示是有前景的研究方向。

论文相关信息

1.论文题目：RepPoints: Point Set Representation for Object Detection

2.发表时间：ICCV 2019

3.文献地址：http://openaccess.thecvf.com/content_ICCV_2019/html/Yang_RepPoints_Point_Set_Representation_for_Object_Detection_ICCV_2019_paper.html

4.论文源码：https://github.com/microsoft/RepPoints

创新:新的目标表示方法RepPoints，基于此表示方法提出了新的检测网络

摘要

现代目标检测器严重依赖于矩形边框来在不同的stage表征物体，如anchor，proposals以及最终的预测。边框使用起来很方便，但是边框只是较粗略的物体定位，进而提取的也是较粗略的物体特征。于是这篇文章抛弃了边框，提出RepPoint（representative points代表点）作为物体的更好的代表，即使用一些样本点来做定位和预测。给定物体的位置和类别，RepPoints会自动学习这些点的分布以限制一个物体的空间范围和表示语义上重要的局部区域。RepPoints这样的基于anchor-free 的检测器能够取得和当前SOTA的基于anchor的检测器一样的性能。COCO test-dev上其精度为46.5 AP ， 67.4 AP50，骨干网使用的是ResNet-101。

1. 介绍

目标检测中边框的流行可归因于两点。一是它所有的评估指标比较通用，表示了预测和物体间的重叠度；二是它计算较容易，容易划分池化的集合。但是其缺点前面也提到了，就是它划定的空间是粗略的(coarse)，不能很好的贴合实际物体的形状，因此其检测性能会很容易受到背景内容以及无意义的前景区域的影响，从而使提取的特征质量和检测性能下降。

这篇文章提出的RepPoints，也就是利用n个点来包围物体以及标识一些有重要语义特征的区域（如图1所示），其训练是同时受目标位置和识别对象所驱动。RepPoints是自顶向下地从输入图片或目标特征学习，能够端到端的训练，属于two-stage家族，无需额外的监督就能预测位置精准的预测。

在这里插入图片描述

图1. RepPoints是目标检测的一种新的目标表示，由一些点组成，这些点表示了物体空间的范围以及一些语义重要的局部区域。这种表示通过真实框的若定位监督和隐式的识别反馈来学习得到。本文基于这种丰富的RepPoints表示发展了一种anchor-free的检测器，这种检测器的性能比使用边框来表示的检测器更好。

2. 相关工作

边框在目标检测问题中的应用：边框现在是目标检测领域中表示物体的主流形式，其流行的原因之一是边框方便标准，没有歧义，且为子识别任务提供了足够的位置精度。所以当前的主流benchmarks都是基于边框来标准和评估的，这也进而推动了目标检测算法使用边框作为基本的表示。原因二是因为很多的特征提取器是使用带有规则格子的patch作为输入，所以使用边框的话提取很方便。虽然RepPoints是不规则的，但是也能方便地提取特征，它与可变性卷积相结合起来，从几个采样点的输入特征中聚合信息。并且，RepPoints也可以生成伪框，使得表示能够用在benchmark上。

现代目标检测器中的边框：目前最先进的目标检测器都是多阶段的，并且在每个阶段都有边框的身影。RepPoints可以替代每个阶段的边框表示，得到更高效的检测器。特别注意的是，anchor被中心点所替代，中心点是RepPoints中的特殊配置。建议框和最终定位目标被RepPoints建议和最终目标替代。由于使用了中心点作为初始目标的表示，得到的检测器是anchor-free的，甚至比基于anchor的检测器更方便。

其他目标检测的表示：有bottom-up和top-down两种方式的表示。bottom-up的有CornerNet和ExtremeNet这样的，他们都需要在确定点之后给关键点分组，即有额外的后处理操作。top-down 的则有RepPoints。

目标识别中的可变性建模：视觉识别的一大挑战是识别形状各异的物体，为了建模适应这种变化，已有的工作有自上而下的可变性建模方法DCN（Deformable convolutional
networks），RepPoints和其的主要区别在于RepPoints除了能够提取语义特征外，还能够得到更加灵活的且位置精准的目标表示。与之成对比的是， deformable convolution 和 deformable RoI pooling都只是为了提高特征提取性能。，而无法得到准确的几何定位。