无人机小目标检测新SOTA：MASF-YOLO重磅发布，多模块协同助力精度飞跃

原创已于 2025-09-23 14:28:12 修改 · 1.7k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#无人机 #目标检测 #YOLO #人工智能 #计算机视觉 #机器学习

于 2025-09-05 09:43:14 首次发布

部署运行你感兴趣的模型镜像

【导读】

这篇论文针对的是无人机航拍图像中的小目标检测这一极具挑战性的任务。无人机视角下的目标通常像素占比极小、尺度多变且背景复杂，导致主流检测模型性能显著下降。为此，作者在YOLOv11的基础上，提出了一种名为MASF-YOLO的创新网络结构，在精度和效率之间取得了卓越的平衡。

本文提出了一种保持轻量级框架的高精度算法，专为无人机图像中的小目标检测而设计，命名为MASF-YOLO。通过严谨的实证分析和实验验证，我们系统地证明了我们的方法中为这一特定任务纳入的多个创新设计理念的有效性。更详细地说，我们工作的新颖性和贡献可列举如下：

为解决小目标因重复下采样而丢失细节信息的问题，我们构建了一个高分辨率小目标检测层。该架构融入了P2级别的细粒度特征图，以充分利用其保留的丰富空间细节，显著增强了模型对小尺度目标的特征表示能力。此外，在颈部网络中添加了跳跃连接以保留更多的浅层语义信息，这有效缓解了深层网络中的语义信息丢失。
在小目标检测任务中，目标通常包含有限的像素信息，因此需要更丰富的上下文信息来辅助检测。为应对这一挑战，我们提出了一种新的多尺度特征聚合模块（MFAM），能有效捕获目标的丰富上下文信息。该架构实现了更有效的特征提取，从而显著提高了小目标的检测精度。
背景噪声一直是损害无人机应用中目标检测性能的关键因素。为有效抑制此类干扰，我们提出了一个改进的高效多尺度注意力模块（IEMA），通过特征分组、并行子网络和跨空间学习实现特征交互和增强。它有效改善了目标区域的特征表示，同时显著抑制了背景噪声干扰，从而提高了复杂场景下的目标检测性能。
为克服基于无人机的小目标检测中的多尺度特征融合挑战，我们引入了维度感知选择性集成模块（DASI）来自适应地融合低维特征和高维特征。它显著提高了颈部网络的多尺度表示能力，从而增强了检测性能。

图片1.png

论文标题：

MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View

论文链接：

https://arxiv.org/pdf/2504.18136

一、提出的方法

MASF-YOLO网络的整体架构如图1所示。具体而言，我们在基线模型上增加了一个小目标检测层（P2层），使网络能够专注于检测小目标。

图片2.png

其次，考虑到目标尺度变化的影响，我们通过优化PKINet设计了一个多尺度特征聚合模块（MFAM）。这种特征聚合方法有助于骨干网络捕获丰富的上下文信息，从而提高网络检测小目标的性能。此外，为增强特征传播并保留细粒度细节，我们在颈部网络的浅层和深层特征图之间加入了跨层跳跃连接，称为Fusion。这些Fusion建立了直接通路，用于传输来自早期层的高分辨率空间信息，有效补偿了深度网络操作造成的语义信息损失。另外，为减轻背景噪声的干扰，我们受EMA启发，提出了一个改进的高效多尺度注意力（IEMA）模块。该注意力机制通过特征分组、并行子网络和跨空间学习实现特征交互和增强，有效应对了背景噪声带来的挑战。最后，我们引入了维度感知选择性集成（DASI）模块来增强颈部网络的多尺度特征融合能力。这种融合机制自适应地聚合低维和高维特征，对提高网络的检测精度起着至关重要的作用。

二、实验

本节首先介绍了用于评估模型目标检测性能的数据集、实验设置、训练策略以及所用指标。然后以YOLOv11-s为基线，通过消融实验验证了各项创新对基线的影响。此外，我们将我们的模型与其他最先进（SOTA）方法进行比较，以证明其竞争性能。为便于直观评估，我们展示了我们的方法与基线方法检测结果的对比可视化，这些定性展示与定量指标高度一致，共同验证了我们改进策略的有效性。

数据集

VisDrone2019数据集由天津大学机器学习与数据挖掘实验室的AISKYEYE团队开发，是一个大规模航空图像数据集，包含288个视频片段、261,908帧和10,209张静态图像，由不同无人机在各种场景下拍摄。

训练设置

本文提出的模型在PyTorch中实现，CUDA版本为11.3，实验环境包括操作系统Ubuntu 20.04和NVIDIA GeForce RTX 4090D 24G显卡。使用随机梯度下降（SGD）优化器进行模型训练。初始学习率设置为0.01，动量为0.937，并使用余弦退火策略动态调整学习率。训练阶段的批次大小（batch size）设置为12，训练周期（epoch）数设置为100。此外，在训练阶段，所有图像都被调整大小为640x640像素。

评估指标

为全面评估我们提出模型的性能，我们采用了目标检测任务中常用的几个关键指标：精确率（P）、召回率（R）、mAP@0.5、mAP@0.5:0.95、参数量（Params）和GFLOPs。

消融研究

为验证本文提出模型的有效性，我们选择YOLOv11-s作为基线网络，并通过消融实验评估了P2层、MFAM、Fusion、IEMA和DASI模块对基线网络的影响。如表I所示，当每个模块被添加到基线时，大多数性能指标均呈现上升趋势。因此，这些消融实验验证了本文提出方法的有效性。

图片3.png

如表II所示，通过调整网络的深度和宽度，我们评估了MASF-YOLO和YOLOv11的不同模型尺寸在VisDrone2019验证集和测试集上的性能。显然，我们提出的改进策略在所有版本上都实现了最佳性能。令人惊讶的是，将我们的贡献应用于YOLOv11-s后，其性能甚至超过了YOLOv11-m，在无人机场景中展现了卓越的精度-效率权衡。

图片4.png

与最先进方法的比较

如表III所示，与最先进的目标检测器相比，所提出的模型保持了优异的准确性，并展现出强大的竞争力。

图片5.png

此外，在图5中，我们展示了两个极具代表性的检测结果，其中基线模型漏检但被MASF-YOLO-s成功检测到的小目标用红色边界框突出显示。可以观察到，MASF-YOLO-s实现了显著更准确的检测。

图片6.png

结论

在本工作中，我们通过多项改进提高了无人机遥感中小目标检测的准确性。首先，我们引入了一个小目标检测层，显著增强了网络检测小目标的能力。其次，我们将MFAM模块嵌入到骨干网络中，以从目标中提取丰富的上下文信息。此外，在颈部网络中加入了跳跃连接，以保留浅层语义信息并减少深层网络的信息损失。再者，采用IEMA模块来增强特征表示，同时减少背景噪声干扰。最后，采用DASI模块自适应地融合低层和高层特征，提高了颈部网络的特征融合能力。实验结果验证了这一改进策略的有效性和潜力，为小目标检测的进一步研究提供了有价值的见解。