目标检测笔记-CenterNet(Object as Point)

介绍一种基于关键点检测的Anchor-Free目标检测方法,使用全卷积网络如Hourglass、ResNet和DLA,将GT转化为heatmap,通过focal loss和L1 loss训练,实现在COCO数据集上42.2%的准确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Object as Point

从关键点检测的角度进行anchor-free目标检测

  1. 输入Image I∈RW×H×3I \in R^{W \times H \times 3}IRW×H×3
    输出heatmap Y^∈[0,1]WR×HR×C\hat{Y} \in [0, 1] ^ {\frac{W}{R} \times\frac{H} {R} \times C}Y^[0,1]RW×RH×C
    R表示output stride,通常为4,输出对输入下采样R倍。
    C在目标检测中表示类别数,coco数据集时C=80.
    论文使用三种不同的全卷积的encoder-decoder网络:hourglass,ResNet,DLA

  2. 用CornerNet的方法,使用高斯核函数,将GT转化为heatmap。
    Yxyc=exp(−(x−px~)2+(y−py~)22σp2) Y_{xyc}=exp(-\frac{(x-\tilde{p_x})^2+(y-\tilde{p_y})^2}{2\sigma^2_p}) Yxyc=exp(2σp2(xpx~)2+ypy~)2)
    网络使用focal loss,损失函数为:
    在这里插入图片描述
    为了恢复由输出步长(stride)引起的离散误差,网络同时预测了局部偏移。所有的类别c共享相同的局部偏移。损失函数使用L1 loss。监督只用于关键点 p~\tilde{p}p~
    在这里插入图片描述
    (x1(k),y1(k),x2(k),y2(k))(x_1^{(k)},y_1^{(k)},x_2^{(k)},y_2^{(k)})(x1(k),y1(k),x2(k),y2(k))是类别k的bbox,目标尺寸定义为sk=(x2(k)−x1(k),y2(k)−y1(k))s_{k}=(x_2^{(k)}-x_1^{(k)}, y_2^{(k)}-y_1^{(k)})sk=(x2(k)x1(k),y2(k)y1(k))。在目标中心点使用L1损失函数,不对比例尺进行规范化,直接使用原始像素坐标:

在这里插入图片描述
因此网络的总损失函数为:

  1. 网络预测类别C,偏移O和尺寸S。对(WR,HR)(\frac{W}{R},\frac{H}{R})(RW,RH) 中的每个输出位置,输出C+4个结果,C表示类别,4表示偏移和尺寸。所有输出共享一个全卷积主干网络。

  2. 在检测阶段,首先提取每个类别在heatmap图上的峰值(其值大于相邻的8个邻点,并取前100个。我们用YxiyicY_{x_iy_ic}Yxiyic作为点(xi,yi)(x_i,y_i)xiyi点上属于类别c的置信度。σx^\sigma\hat{x}σx^σy^\sigma\hat{y}σy^为偏移量预测,w^\hat{w}w^h^\hat{h}h^为尺寸预测。则我们可以计算出bbox的边界框坐标:
    在这里插入图片描述
    所有输出都是直接从关键点估计产生的,而不需要基于IOU的非最大抑制(NMS)或其他后处理。峰值键点提取作为一种充分的NMS替代方案,可以在设备上使用3×3最大池操作进行有效的实现。(?)

  3. Hourglass-104能在COCO数据集上达到42.2%的准确率和7.8FPS。具体实验结果参考论文。
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值