【论文阅读】Drone-DETR: Efficient Small Object Detection for Remote Sensing Image Using Enhanced RT-DETR

原创

已于 2025-08-29 09:44:49 修改 · 1k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #论文阅读 #人工智能

于 2025-08-21 14:45:06 首次发布

Drone-DETR: Efficient Small Object Detection for Remote Sensing Image Using Enhanced RT-DETR Model

论文地址
 论文源码

摘要

低延迟、高精度的目标检测对配备视觉传感器的无人机 (UAV)具有重要意义。然而，目前嵌入式无人机设备的局限性导致其在检测精度和速度的平衡方面提出了挑战，特别是在高精度遥感图像分析中。这一挑战在涉及许多小物体、复杂背景和遮挡重叠的场景中尤为明显。为了解决这些问题，我们引入了基于 RT-DETR 的 Drone-DETR 模型。为了克服与检测小物体和减少超广角图像中复杂背景产生的冗余计算相关的困难，我们提出了有效的小目标检测网络（ESDNet）。该网络保留了关于小物体的详细信息，减少了冗余计算，并采用轻量级架构。此外，我们在颈部网络中引入了增强型双路径特征融合模块(EDF-FAM)。该模块是专门为增强网络处理多尺度对象的能力而设计的。我们采用动态竞争学习策略来增强模型有效融合多尺度特征的能力。此外，我们将ESDNet中的P2浅层特征层合并到颈部网络中，以增强模型融合小物体特征的能力，从而提高小目标检测的准确性。实验结果表明，Drone-DETR 模型在 VisDrone2019 数据集上仅使用 28.7 万个参数实现了 53.9% 的 mAP50，比 RT-DETR-R18 提高了 8.1%。

引言

无人机(uav)的通用性和机动性使它们能够在各种苛刻的环境中高效地进行广域目标检测。通过先进的高清视觉传感器，无人机已广泛应用于灾害救援行动、城市交通、空中测量、军事侦察等关键领域等众多应用中。

与地面图像相比，无人机航拍图像显示出显著的区别，其特点是几个关键特征:(1)图像场景覆盖相对较大的区域，包括广泛的背景元素;(2)主要拍摄角度来自俯视图，经常导致遮挡;(3)图像中物体尺度存在显著差异——例如，前景中的汽车可能出现在背景中比汽车大5倍;(4)与整体图像尺寸相比，单个物体尺寸相对较小;(5)物体经常被密集填充，在某些图像中有许多相似的物品重叠;(6)一些图像中存在过度曝光和光照不足等各种照明效果。

无人机目标检测技术面临两个重大挑战。首先，在模型部署方面，无人机的约束嵌入式资源需要利用轻量级的实时目标检测模型。这一需求对在模型精度和处理速度之间获得最佳平衡提出了一个关键的挑战。其次，在航拍图像识别领域，无人机遥感图像主要具有尺度变化大、背景多样