无惧遮挡 & 小目标!复旦开源UAV-DETR:无人机图像的高效端到端目标检测

0. 论文信息

标题:UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery

作者:Huaxiang Zhang, Kai Liu, Zhongxue Gan, Guo-Niu Zhu

机构:Fudan University

原文链接:https://arxiv.org/abs/2501.01855

代码链接:https://github.com/ValiantDiligent/UAV-DETR

1. 导读

无人机目标检测(UAV-OD)已经广泛应用于各种场景。然而,大多数现有的UAV-OD算法依赖于手动设计的组件,这需要大量的调整。不依赖于这种人工设计的组件的端到端模型主要是为自然图像设计的,对于无人机图像效果较差。为了应对这些挑战,本文提出了一种适用于无人机图像的高效检测变压器(DETR)框架,即无人机DETR。该框架包括具有频率增强模块的多尺度特征融合,该模块在不同尺度上捕获空间和频率信息。此外,提出了一种频率聚焦下采样模块,以在下采样期间保留关键的空间细节。开发了语义对齐和校准模块来对齐和融合来自不同融合路径的特征。实验结果证明了该方法在不同无人机图像数据集上的有效性和推广性。在VisDrone数据集上,我们的方法将AP提高了3.1%美国联合通讯社(Associated Press)50超出基线4.2%。在UAVVaste数据集上也观察到了类似的增强。

2. 效果展示

无人机视觉中的目标特征比正常视觉中的更为复杂。航拍图像面临着小目标尺寸和遮挡等挑战。因此,检测无人机图像中的目标通常受益于详细的特征提取。在局部特征可能无法提供足够信息的情况下,融入目标与周围环境之间的关系将是提高检测精度的一种可行选择。

图片

RT-DETR-R18和UAV-DETR-R18的热图。热图中较亮的区域表示模型的注意力较强。我们的模型显示了对小物体及其周围环境的更大关注。黄色方框突出显示了我们的模型在检测遮挡物体方面表现更好的区域。红框表示模型对噪声失焦的区域。

图片

3. 引言

配备摄像头的无人机(UAV)已在各个领域得到广泛应用。在这些应用中,无人机目标检测(UAV-OD)作为核心技术之一,受到了广泛关注。流行的无人机目标检测算法通常依赖于手动设计的组件,如非极大值抑制(NMS)和基于人类经验生成的锚框。这些组件针对不同任务需要大量调整,在实际应用中复杂且低效。相比之下,端到端模型则不受这些问题的影响。因此,为无人机目标检测开发端到端模型将是一个不错的选择。

作为一种流行的端到端模型,检测Transformer(DETR)利用Transformer架构创建了一个端到端检测器。近期研究已提升了DETR模型对小目标的检测能力,但其高昂的计算成本和较差的实时性能使其不适合实时场景[5]。为了解决这些问题,Zhao等人提出了一种实时检测Transformer(RT-DETR),在准确率和速度上均超越了流行的You Only Look Once(YOLO)框架。然而,现有的DETR主要针对自然图像设计,这使其在应用于无人机图像分析时面临挑战。推荐课程:零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]

为了应对航拍图像中目标检测的挑战,本文提出了一种针对无人机图像的高效检测Transformer框架,即UAV-DETR。我们利用跨多个尺度的空间和频域信息来保留高频分量,从而增强了模型。我们提出了一种以频率为重点的下采样策略,以在下采样过程中保留关键的空间细节。最后,我们通过对齐不同特征融合路径的特征,增强了模型的语义表示能力。

4. 主要贡献

我们的主要贡献总结如下:

1)我们提出了UAV-DETR,这是一种针对无人机图像的高效端到端检测Transformer。该框架实现了卓越的准确性和实时性能。

2)我们提出了一种具有频率增强模块的多尺度特征融合方法,以增强对小目标和遮挡目标的检测。

3)我们开发了一种以频率为重点的下采样模块,该模块保留了双域信息。

4)我们提出了一种语义对齐和校准模块,用于对齐来自不同特征融合路径的特征,以提升检测性能。

5. 方法

如图2所示,本研究提出了一种UAV-DETR,它是在RT-DETR架构的基础上构建的。我们通过三个组件增强了模型,即具有频率增强的多尺度特征融合、以频率为重点的下采样以及语义对齐和校准。此外,我们还引入了内Scylla交并比(Inner-SIoU)来替代广义交并比(GIoU)。

图片

6. 实验结果

图片

图片

7. 总结 & 未来工作

我们设计了UAV-DETR,一个专门设计用于无人机图像的实时端到端物体检测器。通过引入MSFF-FE模块、FD模块和SAC模块,UAV-DETR有助于缓解在航空图像中检测小物体和遮挡物体的困难。在VisDrone和UAVVaste数据集上的实验结果表明,我们的方法在保持实时推理速度的同时,比现有方法在类似计算成本下实现更高的准确性。未来的工作将侧重于提高其对噪声的鲁棒性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

### 关于 UAV-DETR 模型 UAV-DETR 是一种基于 Transformer 的无人机目标检测模型,旨在解决空中图像中小物体密集分布的问题。该模型通过引入高效的特征融合机制来增强对复杂场景的理解能力[^1]。具体而言,UAV-DETR 利用了 DETRDetection Transformer)的核心思想,在此基础上针对无人机拍摄的高分辨率遥感影像进行了优化。 #### 特征融合与改进 为了提升检测性能,UAV-DETR 集成了多尺度特征金字塔网络(FPN),并进一步设计了一种自适应注意力模块,用于捕捉不同尺度下的语义信息和空间细节。这种架构能够有效缓解传统卷积神经网络在处理大范围比例变化时遇到的困难。 此外,UAV-DETR 还借鉴了一些先进的技术理念,例如 Deformable DETR 中提出的可变形注意力机制以及 Conditional DETR 提供的位置编码策略。这些创新使得 UAV-DETR 能够更精准地定位目标边界框,并减少误检率[^2]。 以下是实现 UAV-DETR 的基本框架代码示例: ```python import torch from torchvision import models from transformers import DetrForObjectDetection class UAV_DETR(torch.nn.Module): def __init__(self, num_classes=91): # 默认 COCO 数据集类别数为 91 super(UAV_DETR, self).__init__() # 加载预训练的 DETR 模型作为基础结构 self.detr = DetrForObjectDetection.from_pretrained('facebook/detr-resnet-50') # 替换分类头以适配新的类别数量 in_features = self.detr.class_labels_classifier.in_features self.detr.class_labels_classifier = torch.nn.Linear(in_features, num_classes) def forward(self, inputs): outputs = self.detr(inputs) return outputs # 初始化模型实例 model = UAV_DETR(num_classes=80) # 假设数据集中有 80 类对象 print(model) ``` 上述代码展示了如何构建一个简单的 UAV-DETR 模型原型。需要注意的是,实际应用中可能还需要调整超参数设置、增加数据增广操作或者微调损失函数权重等步骤以获得更好的效果。 --- ###
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值