在对象检测中,基于关键点的方法经常遭受大量不正确的对象边界框,可以说是由于缺少对裁剪区域的额外观察。本文提出了一种有效的解决方案,以最小的成本探索每个裁剪区域内的视觉模式。我们在一个名为Corner-Net的代表性基于关键点的代表性探测器上构建我们的框架。我们的方法名为CenterNet,将每个对象检测为三元组而不是一对关键点,从而提高精度和召回率。因此,我们设计了两个名为级联角池和中心池的定制模块,它们分别丰富了左上角和右下角收集的信息,并在中心区域提供了更多可识别的信息。在MS-COCO数据集上,CenterNet实现了47.0%的AP,其性能优于所有现有的单级探测器至少4.9%。同时,具有更快的推理速度,CenterNet表现出与顶级两级探测器相当的性能。代码可在 https://github.com/Duankaiwen/CenterNet 获得。
1.引言
借助深度学习,尤其是卷积神经网络[11](CNNs),物体检测得到了显着的改进和提升。在当今时代,最流行的流程图之一是基于锚[10,12,27,31,33],它放置了一组具有预定义大小的矩形,并在借助于它们的情况下将它们回归到所需的位置。真实的对象。这些方法通常需要大量锚点以确保与地面实况对象具有足够高的IoU(交联结合)率,并且每个锚箱的尺寸和纵横比需要手动设计。另外,锚点通常不与地面实例框对齐,这不利于边界框分类任务。
为了克服基于锚点的方法的缺点,提出了一种名为Corner-Net的基于关键点的对象检测管道[20]。它通过一对角点关键点表示每个对象,这绕过了锚箱的需要,并实现了最先进的一阶段物体检测精度。尽管如此,Corner-Net的表现仍然受到其参考物体全球信息的能力相对较弱的制约。也就是说,由于每个对象由一对角构成,因此该算法对于检测对象的边界敏感,同时不知道哪些关键点对应该被分组到对象中。因此,如图1所示,它经常产生一些不正确的边界框,其中大部分可以用补充信息(例如纵横比)容易地滤除。
为了解决这个问题,我们为CornerNet提供了感知每个建议区域内的视觉模式的能力,以便它可以自己识别每个边界框的正确性。在本文中,我们提