0. 论文信息
标题:UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery
作者:Huaxiang Zhang, Kai Liu, Zhongxue Gan, Guo-Niu Zhu
机构:Fudan University
原文链接:https://arxiv.org/abs/2501.01855
代码链接:https://github.com/ValiantDiligent/UAV-DETR
1. 导读
无人机目标检测(UAV-OD)已经广泛应用于各种场景。然而,大多数现有的UAV-OD算法依赖于手动设计的组件,这需要大量的调整。不依赖于这种人工设计的组件的端到端模型主要是为自然图像设计的,对于无人机图像效果较差。为了应对这些挑战,本文提出了一种适用于无人机图像的高效检测变压器(DETR)框架,即无人机DETR。该框架包括具有频率增强模块的多尺度特征融合,该模块在不同尺度上捕获空间和频率信息。此外,提出了一种频率聚焦下采样模块,以在下采样期间保留关键的空间细节。开发了语义对齐和校准模块来对齐和融合来自不同融合路径的特征。实验结果证明了该方法在不同无人机图像数据集上的有效性和推广性。在VisDrone数据集上,我们的方法将AP提高了3.1%美国联合通讯社(Associated Press)50超出基线4.2%。在UAVVaste数据集上也观察到了类似的增强。
2. 效果展示
无人机视觉中的目标特征比正常视觉中的更为复杂。航拍图像面临着小目标尺寸和遮挡等挑战。因此,检测无人机图像中的目标通常受益于详细的特征提取。在局部特征可能无法提供足够信息的情况下,融入目标与周围环境之间的关系将是提高检测精度的一种可行选择。
RT-DETR-R18和UAV-DETR-R18的热图。热图中较亮的区域表示模型的注意力较强。我们的模型显示了对小物体及其周围环境的更大关注。黄色方框突出显示了我们的模型在检测遮挡物体方面表现更好的区域。红框表示模型对噪声失焦的区域。
3. 引言
配备摄像头的无人机(UAV)已在各个领域得到广泛应用。在这些应用中,无人机目标检测(UAV-OD)作为核心技术之一,受到了广泛关注。流行的无人机目标检测算法通常依赖于手动设计的组件,如非极大值抑制(NMS)和基于人类经验生成的锚框。这些组件针对不同任务需要大量调整,在实际应用中复杂且低效。相比之下,端到端模型则不受这些问题的影响。因此,为无人机目标检测开发端到端模型将是一个不错的选择。
作为一种流行的端到端模型,检测Transformer(DETR)利用Transformer架构创建了一个端到端检测器。近期研究已提升了DETR模型对小目标的检测能力,但其高昂的计算成本和较差的实时性能使其不适合实时场景[5]。为了解决这些问题,Zhao等人提出了一种实时检测Transformer(RT-DETR),在准确率和速度上均超越了流行的You Only Look Once(YOLO)框架。然而,现有的DETR主要针对自然图像设计,这使其在应用于无人机图像分析时面临挑战。推荐课程:零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]。
为了应对航拍图像中目标检测的挑战,本文提出了一种针对无人机图像的高效检测Transformer框架,即UAV-DETR。我们利用跨多个尺度的空间和频域信息来保留高频分量,从而增强了模型。我们提出了一种以频率为重点的下采样策略,以在下采样过程中保留关键的空间细节。最后,我们通过对齐不同特征融合路径的特征,增强了模型的语义表示能力。
4. 主要贡献
我们的主要贡献总结如下:
1)我们提出了UAV-DETR,这是一种针对无人机图像的高效端到端检测Transformer。该框架实现了卓越的准确性和实时性能。
2)我们提出了一种具有频率增强模块的多尺度特征融合方法,以增强对小目标和遮挡目标的检测。
3)我们开发了一种以频率为重点的下采样模块,该模块保留了双域信息。
4)我们提出了一种语义对齐和校准模块,用于对齐来自不同特征融合路径的特征,以提升检测性能。
5. 方法
如图2所示,本研究提出了一种UAV-DETR,它是在RT-DETR架构的基础上构建的。我们通过三个组件增强了模型,即具有频率增强的多尺度特征融合、以频率为重点的下采样以及语义对齐和校准。此外,我们还引入了内Scylla交并比(Inner-SIoU)来替代广义交并比(GIoU)。
6. 实验结果
7. 总结 & 未来工作
我们设计了UAV-DETR,一个专门设计用于无人机图像的实时端到端物体检测器。通过引入MSFF-FE模块、FD模块和SAC模块,UAV-DETR有助于缓解在航空图像中检测小物体和遮挡物体的困难。在VisDrone和UAVVaste数据集上的实验结果表明,我们的方法在保持实时推理速度的同时,比现有方法在类似计算成本下实现更高的准确性。未来的工作将侧重于提高其对噪声的鲁棒性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~