如何理解CenterNet，它与其它检测网络有何不同？

最新推荐文章于 2024-10-27 18:15:00 发布

原创

最新推荐文章于 2024-10-27 18:15:00 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #深度学习 #计算机视觉

CenterNet是一种摒弃锚点的物体检测框架，通过预测对象中心的置信度热图和边界框信息简化了检测过程，避免了非最大抑制（NMS）的复杂性。该方法在保持检测精度的同时，提高了推理速度。

CenterNet 是一种anchor-free的对象检测体系结构。这种结构有一个重要的优势，因为它在后处理时用更优雅的算法取代了经典的NMS（非最大抑制），这对CNN流程来说是很自然的。这种机制可以更快地进行推理。参见图1。
图 1.不同模型的 COCO mAP 与推理时间的关系，由 CenterNet 作者测量。图片由Uri Almog创建。
正如我在关于对象检测的文章中所描述的那样，大多数探测器使用多个（通常是3或5个）基本框或锚点来编码他们的预测。输出要素图中的每个空间像元预测多个框。每个框预测都编码为相对于像元中心的 x 和 y 偏移，以及相对于相应锚点的宽度和高度偏移。完整的解释可以在YOLOv3帖子中找到。

基于锚点的检测的问题在于它会产生许多垃圾预测：例如，YOLOv3 为每个图像预测超过 7000 个框。然后，后处理块需要对重叠预测运行成对检查，如果重叠率很高（通常 IoU > 0.7，而 COCO 测试集），则假定预测引用同一对象，并丢弃置信度较低的预测。此方法有两个主要缺陷：

它的复杂性与预测数的平方成正比 - 对于基于高精度锚点的模型（使用高分辨率输入）尤其糟糕。
它迫使网络在NMS之前解码所有预测，对大多数不相关的预测执行更多的时间和功耗操作。

由Zhou等人于2019年发表的论文《Objects as Points》探讨了无锚预测。在训练集准备时，他们在ground truth中心绘制具有delta函数的map。然后，他们使用高斯滤波器来处理这些中心，生成一个平滑的分布，达到物体中心的峰值。然后，该模型使用两个预测head：一个训练用于预测置信度heatmap，而另一个头列用于预测边界框的尺寸和偏移量的回归值，后者是指第一个波头预测的box中心。参见图2。