【论文阅读】【2d目标检测】set prediction的目标检测算法总结

最新推荐文章于 2025-08-04 20:24:00 发布

原创

最新推荐文章于 2025-08-04 20:24:00 发布 · 1.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #自动驾驶 #深度学习

本文探讨了一种突破传统目标检测方法的创新思路，即直接预测一组候选框，并通过与GT进行一一匹配计算损失，无需繁琐的NMS步骤。DETR、Deformable DETR和Sparse RCNN等论文展示了如何利用Transformer和自注意力机制实现这一目标检测新方法，减少了计算复杂性和对小目标的处理问题。

目标的目标检测算法大都依赖于大量放置预定义的anchors，即使一些anchor free的算法也是通过gt内部的点来预测proposals。这样的通病是需要用nms处理大量的重叠框来达到dense to sparse的目的。那么，能不能有一个检测器直接暴力预测一个集合的candidate 然后对于这些candidate与gt进行一一匹配随后计算loss呢？
随着算力的提升，我们发现这样的做法是可以的。
下面便介绍set prediction 的一些论文：

DETR
Deformable DETR
Sparse RCNN

DETR

这篇文章开始目标检测领域引入了transformer。
在这里插入图片描述
很简单的想法，就是把图像放进backbone中进行卷积输出下采样的特征图随后对这个特征图进行reshape处理，加上位置编码便对所有的pixel level的feature进行自注意力机制的编码，将进行了encode后的feature再与初始化定义的object queries进行cross attention处理。对输出的query输送到检测头里面，对object进行检测。
文章检测出来的object显然是query数目的。那么对于得到的这些proposals我们便需要与GT进行一一的匹配。match过程作为一个函数进行优化注意首先我们需要对于GT进行一个补充
在这里插入图片描述
随后我们便得到了一对一的proposal与GT 对他们我们计算Hungarian loss 即类似faster rcnn的loss计算