CVPR2024｜实时目标检测的变革：RT-DETR的突破性性能

CV视觉

已于 2024-07-03 14:37:52 修改

阅读量1.3k

点赞数 19

文章标签：目标检测目标跟踪人工智能机器学习计算机视觉自然语言处理深度学习

于 2024-07-03 11:24:13 首次发布

本文链接：https://blog.youkuaiyun.com/2401_83878212/article/details/140147558

版权

论文：DETRs Beat YOLOs on Real-time Object Detection

单位： 百度公司

源代码： RT-DETR GitHub仓库

摘要

实时目标检测领域一直由基于CNN的架构主导，YOLO检测器领先。然而，端到端的基于变换器的检测器（DETRs）的引入彻底改变了这一领域，尽管它们的计算成本很高。在本文中，作者介绍了实时检测变换器（RT-DETR），这是一个突破性的模型，不仅在速度和精度方面实现了最先进的（SOTA）性能，而且消除了传统实时检测器中的非最大抑制（NMS）等后处理步骤的需要，这些步骤一直是传统实时检测器中的瓶颈。

关键技术和创新

RT-DETR模型建立在两个关键创新之上，使其与现有解决方案区别开来：

高效混合编码器： 作者提出了一个高效的混合编码器，通过解耦内部尺度交互和跨尺度融合来处理多尺度特征。这种设计显著降低了计算负担，同时保持了高性能，实现了实时目标检测。
IoU感知查询选择： 为了进一步提高性能，作者引入了IoU感知查询选择。该机制通过在训练期间加入IoU约束，提供了更高质量的初始对象查询给解码器，从而实现了更准确的对象定位和检测。

实现和设计

RT-DETR模型的设计注重效率和性能。它包括一个主干网络、一个混合编码器和一个带有辅助预测头的变换器解码器。模型利用主干网络的输出特征，并通过混合编码器将它们转换为一系列图像特征。然后，IoU感知查询选择精炼了这些特征，为解码器提供了一组优化的查询。解码器迭代优化这些查询以生成边界框和置信度分数。

实验结果

RT-DETR模型经过广泛测试，并在各种指标上展示了卓越的性能：

RT-DETR-L： 在COCO val2017数据集上达到53.0%的平均精度（AP），在T4 GPU上的帧率为114 FPS。
RT-DETR-X： 达到54.8% AP，速度为74 FPS，超越了同规模的当代YOLO检测器在速度和精度方面的性能。
RT-DETR-R50和R101： 这些RT-DETR的扩展版本进一步提高了性能，其中RT-DETR-R50在108 FPS的速度下达到53.1% AP，RT-DETR-R101在74 FPS的速度下达到54.3% AP。

这些结果将RT-DETR定位为实时目标检测领域的新SOTA，为现有YOLO检测器提供了一个引人注目的替代方案。

优缺点

优点：

实时性能： RT-DETR的高效设计允许实时目标检测，同时不牺牲精度。
端到端检测： 消除了NMS和其他后处理步骤，简化了流程，并避免了与传统检测器相关的延迟。
可扩展性： 模型支持通过使用不同解码器层灵活调整推理速度，便于在各种实时场景中应用。

缺点：

计算复杂性： 虽然比传统的DETRs更高效，但模型仍然需要大量的计算资源，这可能限制其在资源受限的设备上部署。
训练数据需求： 高质量的训练数据对于模型的最优性能至关重要，这在数据有限或未标注的场景中可能是一个挑战。

结论

RT-DETR模型代表了实时目标检测技术的一次重大飞跃。通过解决DETRs的计算挑战并消除NMS等后处理步骤的需要，它为从自动驾驶到视频监控的各种应用提供了一个简化、高性能的解决方案。随着该领域的不断发展，RT-DETR的创新方法为未来端到端目标检测的发展设定了新的标准。