CVPR 2023目标检测(Object Detection)DETRs Beat YOLOs on Real-time Object Detection

本文针对基于变压器的端到端检测器(DETRs)计算成本高、难以实时应用的问题,提出实时检测变压器(RT-DETR)。分析了NMS对实时检测器的影响,建立端到端速度基准。设计高效混合编码器和IoU感知查询选择,实验表明RT-DETR在速度和精度上优于同类检测器,还可灵活调整推理速度。

摘要

 近年来,基于变压器的端到端检测器(DETRs)取得了令人瞩目的进展。然而,高计算成本限制了der的实际应用,使其无法充分发挥无后处理(non-maximum suppression, NMS)等优点。本文首先分析了NMS对现有实时目标检测器的精度和速度的负面影响,并建立了端到端的速度基准。为了解决上述问题,我们提出了实时检测变压器(RT-DETR),这是我们所知的第一个实时端到端对象检测器。具体来说,我们设计了一个高效的混合编码器,通过解耦尺度内交互和跨尺度融合来高效地处理多尺度特征,并提出了低感知查询选择,通过向编码器提供更高质量的初始对象查询来进一步提高性能。此外,我们提出的检测器支持通过使用不同的解码器层来灵活调整推理速度,而无需再训练,这有利于在各种实时场景中的实际应用。我们的rt - der - l在COCO val2017上实现了53.0%的AP,在T4 GPU上实现了114 FPS,而rt - der - x实现了54.8%的AP和74 FPS,在速度和精度上都优于同等规模的最先进的YOLO检测器。 AP的准确性和FPS的21倍。
源代码和预训练模型可在https://github.com/lyuwenyu/RT-DETR上获得。

1、Introduction

        物体检测是一项基本的视觉任务,涉及识别和定位图像中的物体。现代目标检测器有两种典型的架构:基于cnn的和基于transformer的。 在过去的几年里,人们对基于cnn的物体检测器进行了广泛的研究。这些探测器的结构从最初的两阶段演变为一阶段,并出现了基于锚的和无锚的两种检测范式。这些研究在检测速度和准确性方面都取得了重大进展。基于transformer的目标检测器(DETRs)自提出以来,由于其消除了各种手工制作的组件,例如非最大抑制(NMS),因此受到了学术界的广泛关注。该体系结构大大简化了目标检测的流水线,实现了端到端的目标检测。

        实时目标检测是一个重要的研究领域,具有广泛的应用,如目标跟踪、视频监控、自动驾驶等。现有的实时检测器一般采用基于cnn的架构,这是有原因的,能够权衡检测速度和准确性。然而,这些实时检测器通常需要NMS进行后处理,这通常难以优化且不够鲁棒,导致检测器的推理速度延迟。近年来,由于研究人员在加速训练收敛和降低优化难度方面的努力,基于变压器的检测器取得了显著的性能。然而,DETRs计算成本高的问题尚未得到有效解决,这限制了DETRs的实际应用,导致无法充分发挥其优势。这意味着虽然简化了目标检测流水线,但由于模型本身的计算成本较高,很难实现实时目标检测。以上问题自然激发我们考虑是否可以将DETR扩展到实时场景,充分利用端到端检测器的优势,避免NMS对实时检测器造成的延迟。

        为了实现上述目标,我们对DETR进行了重新思考,并对其关键组件进行了详细的分析和实验,以减少不必要的计算冗余。具体来说,我们发现虽然多尺度特征的引入有利于加速训练收敛和提高性能,但它也会导致输入编码器的序列长度显著增加。因此,变压器编码器由于计算成本高,成为模型的计算瓶颈。为了实现实时目标检测,我们设计了一种高效的混合编码器来取代原来的变压器编码器。通过解耦尺度内的相互作用和多尺度特征的跨尺度融合,编码器可以有效地处理不同尺度的特征。此外,先前的研究表明,解码器的对象查询初始化方案对检测性能至关重要。为了进一步提高性能,我们提出了IoU感知查询选择,通过在训练过程中提供IoU约束,为解码器提供更高质量的初始对象查询。此外,我们提出的检测器通过使用不同的解码器层来灵活调整推理速度,而不需要再训练,这得益于解码器在DETR架构中的设计,有利于实时检测器的实际应用。

        在本文中,我们提出了一个实时检测变压器(RT-DETR),这是我们所知的第一个实时端到端对象检测器。RT-DETR不仅在精度和速度上优于当前最先进的实时检测器,而且不需要后处理,因此检测器的推理速度不会延迟且保持稳定,充分发挥了端到端检测流水线的优势。我们提出的RT-DETRL在COCO val2017上实现53.0%的AP,在NVIDIA Tesla T4 GPU上实现114 FPS,而RT-DETRL - x实现54.8%的AP和74 FPS,在速度和精度上都优于目前同类的YOLO探测器。因此,我们的RT-DETR成为实时目标检测的新SOTA,如图1所示。此外,我们提出的rt - der - r50达到53.1%的AP和108 FPS,而rt - der - r101达到54.3%的AP和74 FPS。其中,RT-DETR-R50的准确率比dinodeformad - detr - r50高2.2% (53.1% AP对50.9% AP), FPS比dinodeform - detr - r50高约21倍(108 FPS对5 FPS)。

        本文的主要贡献如下:(i)提出了第一个实时端到端目标检测器,该检测器不仅在速度和精度上优于当前的实时检测器,而且不需要后处理,因此其推理速度不会延迟并且保持稳定;(ii)详细分析了NMS对实时检测器的影响,并从后处理的角度得出了当前实时检测器的结论;(iii)我们的工作为当前端到端检测器的实时实现提供了可行的解决方案,并且所提出的检测器可以通过使用不同的解码器层灵活调整推理速度,而无需再训练,这是现有实时检测器所难以做到的。

2、Related work

2.1:Real-time Object Detectors.

        经过多年的不断发展,YOLO系列已成为实时目标探测器的代名词,大致可分为基于锚点的和无锚点的两类。从这些探测器的性能来看,锚不再是制约yolo发展的主要因素。然而,上述检测器会产生大量冗余的边界框,需要在后处理阶段利用nms将其过滤掉。不幸的是,这会导致性能瓶颈,nms的超参数对检测器的准确性和速度有重大影响。我们认为这与实时目

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值