文献阅读-2

题目:DETRs Beat YOLOs on Real-time Object Detection


Abstract

The YOLO series has become the most popular framework for real-time object detection due to its reasonable trade-off between speed and accuracy. However, we observe that the speed and accuracy of YOLOs are negatively affected by the NMS. Recently, end-to-end Transformer-based detectors (DETRs) have provided an alternative to eliminating NMS. Nevertheless, the high computational cost limits their practicality and hinders them from fully exploiting the advantage of excluding NMS. In this paper, we propose theReal-Time DEtection TRansformer (RT-DETR), the first real-time end-to-end object detector to our best knowledge that addresses the above dilemma. We build RT-DETR in two steps, drawing on the advanced DETR: first we focus on maintaining accuracy while improving speed, followed by maintaining speed while improving accuracy. Specifically, we design an efficient hybrid encoder to expeditiously process multi-scale features by decoupling intra-scale interaction and cross-scale fusion to improve speed. Then, we propose the uncertainty-minimal query selection to provide high-quality initial queries to the decoder, thereby improving accuracy. In addition, RT-DETR supports flexible speed tuning by adjusting the number of decoder layers to adapt to various scenarios without retraining. Our RT-DETR-R50 / R101 achieves 53.1% / 54.3% AP on COCO and 108 / 74FPS on T4 GPU, outperforming previously advanced YOLOs in both speed and accuracy. Furthermore, RT-DETR-R50 outperforms DINO-R50 by 2.2% AP in accuracy and about21 times in FPS. After pre-training with Objects365, RTDETR-R50 / R101 achieves 55.3% / 56.2% AP. The project page: https://zhao-yian.github.io/RTDETR.

摘要:YOLO系列因其速度和准确性之间的合理权衡而成为实时目标检测最流行的框架。然而,我们观察到 YOLO 的速度和准确性受到 NMS 的负面影响。最近,端到端基于变压器的检测器 (DETR) 提供了一种消除 NMS 的替代方案。然而,高计算成本限制了它们的实用性,阻碍了它们充分利用排除NMS的优势。在本文中,我们提出了实时检测转换器(RT-DETR),这是第一个实时端到端对象检测器到我们解决上述困境的最佳知识。我们分两步构建 RT-DETR,借鉴了高级 DETR:首先我们专注于在提高速度的同时保持准确性,然后在提高准确性的同时保持速度。具体来说,我们设计了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来提高速度来快速处理多尺度特征。然后,我们提出了不确定性最小查询选择来为解码器提供高质量的初始查询,从而提高准确性。此外,RT-DETR 通过调整解码器层的数量来适应各种场景而无需重新训练来支持灵活的速度调整。我们的 RT-DETR-R50 / R101 在 COCO 上达到 53.1% / 54.3% AP,在 T4 GPU 上达到 108 / 74FPS,在速度和准确性上都优于以前先进的 YOLO。此外,RT-DETR-R50 在准确率上比 DINO-R50 高 2.2%,FPS 高出约 21 倍。在使用Objects365进行预训练后,RTDETR-R50 / R101达到55.3% / 56.2% AP。

改进点:

  • 设计了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来提高速度来快速处理多尺度特征。
  • 提出了不确定性最小查询选择来为解码器提供高质量的初始查询,从而提高准确性。
  • RT-DETR 通过调整解码器层的数量来适应各种场景而无需重新训练来支持灵活的速度调整。

改进分析

Efficient Hybrid Encoder(高效的混合编码器)

变体E为设计的高效混合编码器,基于注意力的尺度内特征交互(AIFI)和基于 CNN 的跨尺度特征融合(CCFF)两个模块。

这样设计的原因:将自注意操作应用于语义概念更丰富的高级特征,捕捉到了概念实体之间的联系,有助于后续模块对对象的定位和识别。

CCFF模块结构图:

Uncertainty-minimal Query Selection(不确定性最小查询选择)

原因:为了减少在 DETR 中优化对象查询的难度,当前的查询选择导致所选特征的不确定性相当大,导致解码器的初始化次优,阻碍了检测器的性能。

解决:提出了不确定性最小查询选择方案,该方案显式地构造和优化认知不确定性来建模编码器特征的联合潜在变量,从而为解码器提供高质量的查询。

公式表示:

(2)特征不确定性 U 定义为等式中定位 P 和分类 C 预测分布之间的差异。

(3)为了最小化查询的不确定性,我们将不确定性集成到方程式中的基于梯度的优化的损失函数中。

\hat{y}y表示预测和基本事实,\hat{y}=\left \{ \hat{c},\hat{b} \right \}中的  \hat{c}  和  \hat{b}  表示类别和边界框,\hat{x} 表示编码器特征。

Scaled RT-DETR(缩放RT-DETR)

混合编码器:通过调整嵌入维度和通道数来控制宽度,并通过调整 Transformer 层和 RepBlock 的数量来控制深度。

解码器:宽度和深度可以通过操纵对象查询和解码器层的数量来控制。RT-DETR 的速度通过调整解码器层的数量来支持灵活的调整。

RT-DETR结构图


实验分析

从图中可以看到分俩类进行了对比,一类Real-time Object Detectors,一类End-to-end Object Detectors。可以看出RT-DETR 在速度和准确性方面都优于最先进的 YOLO 检测器和 DETR。

消融实验:

Ablation Study on Hybrid Encoder(混合编码器的消融研究)

可根据上文的混合编码器变体看,A、B、C、D、E都是独立的变体,变体 E 比 D 提高了 1.5% AP。尽管参数数量增加了 20%,但延迟减少了 24%,使得编码器更有效。混合编码器在速度和准确性之间实现了更好的权衡。

Ablation Study on Query Selection(查询选择的消融研究)

由不确定性最小查询选择选择的编码器特征不仅增加了高分类分数的比例(0.82% 对 0.35%),而且还提供了更高质量的特征(0.67% 对 0.30%)。在 COCO val2017 上评估了使用两种查询选择方案训练的检测器的准确性,其中不确定性最小查询选择提高了 0.8%AP(48.7% AP 对 47.9% AP)。

Ablation Study on Decoder(解码器的消融研究)

显示了使用不同解码器层训练的 RT-DETR-R50 的每个解码器层的推理延迟和准确性。当解码器层数设置为 6 时,RT-DETR-R50 达到了 53.1%AP 的最佳准确率。此外,观察到随着解码器层的索引的增加,相邻解码器层之间准确性的差异逐渐减小。以RTDETR-R50-Det6列为例,使用第5个解码器层进行推理的准确率仅损失0.1% AP (53.1% AP vs 53.0% AP),同时将延迟降低0.5 ms (9.3 ms vs 8.8ms)。因此,RT-DETR 通过在没有重新训练的情况下调整解码器层的数量来支持灵活的速度调整,从而提高其实用性。


结论

  • Limitation:即小物体的性能仍然低于强大的实时检测器。
  • Discussion:提出的不同尺度的 RT-DETR 保留了与其他 DETR 同质的解码器,这使得能够以高精度预训练的大型 DETR 模型提取我们的轻量级检测器成为可能。

论文十问

Q1:论文试图解决什么问题?

YOLO的速度和准确性受到NMS影响,DETR提供了消除NMS的替代方案,但高计算成本限制它的使用。——用DETR消除NMS的方案,并消弱高计算成本的影响。

Q2:这是否是一个新的问题?

不是。

Q3:这篇文章要验证一个什么科学假设?

为各种实时场景提供了YOLO以外的新可能性。

Q4:有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?

  • 多尺度特征的引入有利于加速训练收敛——Deformable DETR: Deformable Transformers for End-to-End Object Detection
  • 难以优化的对象查询阻碍了DETRs的性能,并提出了查询选择方案,将香草可学习嵌入替换为编码器特征。

Q5:论文中提到的解决方案之关键是什么?

为了避免选择定位置信度较低的编码器特征作为对象查询,我们提出了不确定性最小查询选择,通过显式优化不确定性为解码器提供高质量的初始查询,从而提高准确性。

Q6:论文中的实验是如何设计的?

对每个改进都进行了消融实验,并且在COCO val2017数据集上对比那时最强的模型。

Q7:用于定量评估的数据集是什么?代码有没有开源?

COCO val2017 和T4 GPU,代码开源。

Q8:论文中的实验及结果有没有很好地支持需要验证的科学假设?

很好的支持了,并且还说明了模型在小目标检测上的检测还是要稍弱一点YOLO。

Q9:这篇论文到底有什么贡献?

RT-DETR支持灵活的速度调优,无需再训练,消除了两个NMS阈值带来的不便,便于实际应用。

Q10:下一步呢?有什么工作可以继续深入?

可以在小目标检测上进行进一步的研究。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值