CenterNet 是一种anchor-free的对象检测体系结构。这种结构有一个重要的优势,因为它在后处理时用更优雅的算法取代了经典的NMS(非最大抑制),这对CNN流程来说是很自然的。这种机制可以更快地进行推理。参见图1。

正如我在关于对象检测的文章中所描述的那样, 大多数探测器使用多个(通常是3或5个)基本框或锚点来编码他们的预测。输出要素图中的每个空间像元预测多个框。每个框预测都编码为相对于像元中心的 x 和 y 偏移,以及相对于相应锚点的宽度和高度偏移。完整的解释可以在YOLOv3帖子中找到。
基于锚点的检测的问题在于它会产生许多垃圾预测:例如,YOLOv3 为每个图像预测超过 7000 个框。然后,后处理块需要对重叠预测运行成对检查,如果重叠率很高(通常 IoU > 0.7,而 COCO 测试集),则假定预测引用同一对象,并丢弃置信度较低的预测。此方法有两个主要缺陷:
- 它的复杂性与预测数的平方成正比 - 对于基于高精度锚点的模型(使用高分辨率输入)尤其糟糕。
- 它迫使网络在NMS之前解码所有预测,对大多数不相关的预测执行更多的时间和功耗操作。
由Zhou等人于2019年发表的论文《Objects as Points》探讨了无锚预测。在训练集准备时,他们在ground truth中心绘制具有delta函数的map。然后,他们使用高斯滤波器来处理这些中心,生成一个平滑的分布,达到物体中心的峰值。然后,该模型使用两个预测head:一个训练用于预测置信度heatmap,而另一个头列用于预测边界框的尺寸和偏移量的回归值,后者是指第一个波头预测的box中心。参见图2。

CenterNet是一种摒弃锚点的物体检测框架,通过预测对象中心的置信度热图和边界框信息简化了检测过程,避免了非最大抑制(NMS)的复杂性。该方法在保持检测精度的同时,提高了推理速度。
最低0.47元/天 解锁文章
1859

被折叠的 条评论
为什么被折叠?



