【目标检测Anchor-Free】CVPR 2019 Object as Points（CenterNet）

最新推荐文章于 2025-10-22 22:42:15 发布

原创

最新推荐文章于 2025-10-22 22:42:15 发布 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

前言

前天发了一个推文【目标检测Anchor-Free】CVPR 2019 CenterNet，讲解的是CenterNet: Keypoint Triplets for Object Detection这篇论文，今天要讲的这篇论文全名是Object as Points。这篇论文提出的网络也被叫作CenterNet，和前面介绍的CenterNet重名了，注意加以区别。论文原文见附录。

摘要：目标检测往往是在图像上将目标以矩形框的形式标出。大多数先进的目标检测算法都是基于Anchor框来穷举可能出现目标的位置，然后针对该位置进行目标的分类和回归，这种做法浪费时间，低效，并且需要额外的后处理（NMS）。这篇论文使用不同的方法，构建模型时将目标作为一个点，即目标BBox的中心点。并且检测器使用关键点估计来找到中心点，并回归其它的目标属性，例如尺寸，3D位置，方向，甚至姿态。这个模型被论文叫做CenterNet，这个模型是端到端可微的，更简单，更快速，更准确。下面是其性能：1：Resnet-18 with up-convolutional layers : 28.1% coco and 142 FPS 。2：DLA-34 : 37.4% COCOAP and 52 FPS 。3：Hourglass-104 : 45.1% COCOAP and 1.4 FPS。

下面的Figure2展示了使用CenterNet目标检测器检测目标的一个可视化效果。

在这里插入图片描述

贡献

CenterNet的创新点如下：

用heatmap预测的目标中心点代替Anchor机制来预测目标，使用更大分辨率的输出特征图（相对于原图缩放了4倍），因此无需用到多层特征，实现了真正的Anchor-Free。CenterNet和Anchor-Based检测器的区别如Figure3所示。

在这里插入图片描述

网络可拓展性非常强，论文中介绍了实现3D目标检测和人体姿态估计任务。具体来说对于3D目标检测，直接回归得到目标的深度信息，3D目标框的尺寸，目标朝向；对于人体姿态估计来说，将关键点位置作为中心的偏移量，直接在中心点回归出这些偏移量的值。例如对于姿态估计任务需要回归的信息如Figure4所示。

在这里插入图片描述

由于模型设计简单，因此在运行速度和精度的平衡上取得了很好的结果。

在这里插入图片描述

网络设计

网络结构

CenterNet的网络结构如Figure6所示。对于2D目标检测任务来说，CenterNet输入 $512\times 512$ 分辨率的图像，预测 $2$ 个目标中心点坐标和 $2$ 个中心点的偏置。以及 $80$ 个类别信息。其中Figure6(a)表示Hourglass-104，Figure6(b)表示带有反卷积做上采样的ResNet-18，Figure6（c）表示经典的DLA-34网络，而Figure6(d)表示改进的DLA-34网络。
在这里插入图片描述
注意这几个结构都是Backbone网络，最后只需要在输出特征图上接卷积层映射结果即可。比如在目标检测任务中，用官方的源码(使用Pytorch)来表示一下最后三层，其中hm为heatmap、wh为对应中心点的width和height、reg为偏置量：

(hm): Sequential(
(0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
(1): ReLU(inplace)
(2): Conv2d(64, 80, kernel_size=(1, 1), stride=(1, 1))
)
(wh): Sequential(
(0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
(1): ReLU(inplace)
(2): Conv2d(64, 2, kernel_size=(1, 1), stride=(1, 1))
)
(reg): Sequential(
(0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
(1): ReLU(inplace)
(2): Conv2d(64, 2, kernel_size=(1, 1), stride=(1, 1))
)

前置内容

令 $I\in R^{H\times W\times 3}$ 为输入图像，宽为 $W$ ，高为 $H$ 。我们的目标是生成关键点热力图 $\hat{Y}\in [0，1]^{\frac{W}{R} \times \frac{H}{R}\times C}$ ，其中 $R$ 是输出步长（即尺度缩放比例）， $C$ 是关键点参数（即输出特征通道数）；关键点类型有 $C = 17$ 的人体关键点，用于姿态估计。 $C = 80$ 的目标类别，用于目标检测。我们默认 $R = 4$ ； $\hat{Y}_{x,y,c}=1$ 表示检测到的关键点，而 $\hat{Y}_{x,y,c}=0 <$

最低0.47元/天解锁文章