无人机小目标检测新SOTA:MASF-YOLO重磅发布,多模块协同助力精度飞跃

部署运行你感兴趣的模型镜像

【导读】

这篇论文针对的是无人机航拍图像中的小目标检测这一极具挑战性的任务。无人机视角下的目标通常像素占比极小、尺度多变且背景复杂,导致主流检测模型性能显著下降。为此,作者在YOLOv11的基础上,提出了一种名为MASF-YOLO的创新网络结构,在精度和效率之间取得了卓越的平衡。

目录

一、提出的方法

二、实验

数据集

训练设置

评估指标

消融研究

与最先进方法的比较

结论


本文提出了一种保持轻量级框架的高精度算法,专为无人机图像中的小目标检测而设计,命名为MASF-YOLO。通过严谨的实证分析和实验验证,我们系统地证明了我们的方法中为这一特定任务纳入的多个创新设计理念的有效性。更详细地说,我们工作的新颖性和贡献可列举如下:

  • 为解决小目标因重复下采样而丢失细节信息的问题,我们构建了一个高分辨率小目标检测层。该架构融入了P2级别的细粒度特征图,以充分利用其保留的丰富空间细节,显著增强了模型对小尺度目标的特征表示能力。此外,在颈部网络中添加了跳跃连接以保留更多的浅层语义信息,这有效缓解了深层网络中的语义信息丢失。

  • 在小目标检测任务中,目标通常包含有限的像素信息,因此需要更丰富的上下文信息来辅助检测。为应对这一挑战,我们提出了一种新的多尺度特征聚合模块(MFAM),能有效捕获目标的丰富上下文信息。该架构实现了更有效的特征提取,从而显著提高了小目标的检测精度。

  • 背景噪声一直是损害无人机应用中目标检测性能的关键因素。为有效抑制此类干扰,我们提出了一个改进的高效多尺度注意力模块(IEMA),通过特征分组、并行子网络和跨空间学习实现特征交互和增强。它有效改善了目标区域的特征表示,同时显著抑制了背景噪声干扰,从而提高了复杂场景下的目标检测性能。

  • 为克服基于无人机的小目标检测中的多尺度特征融合挑战,我们引入了维度感知选择性集成模块(DASI)来自适应地融合低维特征和高维特征。它显著提高了颈部网络的多尺度表示能力,从而增强了检测性能。

图片1.png

论文标题:

MASF-YOLO: An Improved YOLOv11 Network for Small Object Detection on Drone View

论文链接

https://arxiv.org/pdf/2504.18136


一、提出的方法

MASF-YOLO网络的整体架构如图1所示。具体而言,我们在基线模型上增加了一个小目标检测层(P2层),使网络能够专注于检测小目标。

图片2.png

其次,考虑到目标尺度变化的影响,我们通过优化PKINet设计了一个多尺度特征聚合模块(MFAM)。这种特征聚合方法有助于骨干网络捕获丰富的上下文信息,从而提高网络检测小目标的性能。此外,为增强特征传播并保留细粒度细节,我们在颈部网络的浅层和深层特征图之间加入了跨层跳跃连接,称为Fusion。这些Fusion建立了直接通路,用于传输来自早期层的高分辨率空间信息,有效补偿了深度网络操作造成的语义信息损失。另外,为减轻背景噪声的干扰,我们受EMA启发,提出了一个改进的高效多尺度注意力(IEMA)模块。该注意力机制通过特征分组、并行子网络和跨空间学习实现特征交互和增强,有效应对了背景噪声带来的挑战。最后,我们引入了维度感知选择性集成(DASI)模块来增强颈部网络的多尺度特征融合能力。这种融合机制自适应地聚合低维和高维特征,对提高网络的检测精度起着至关重要的作用。


二、实验

本节首先介绍了用于评估模型目标检测性能的数据集、实验设置、训练策略以及所用指标。然后以YOLOv11-s为基线,通过消融实验验证了各项创新对基线的影响。此外,我们将我们的模型与其他最先进(SOTA)方法进行比较,以证明其竞争性能。为便于直观评估,我们展示了我们的方法与基线方法检测结果的对比可视化,这些定性展示与定量指标高度一致,共同验证了我们改进策略的有效性。

  • 数据集

VisDrone2019数据集由天津大学机器学习与数据挖掘实验室的AISKYEYE团队开发,是一个大规模航空图像数据集,包含288个视频片段、261,908帧和10,209张静态图像,由不同无人机在各种场景下拍摄。

  • 训练设置

本文提出的模型在PyTorch中实现,CUDA版本为11.3,实验环境包括操作系统Ubuntu 20.04和NVIDIA GeForce RTX 4090D 24G显卡。使用随机梯度下降(SGD)优化器进行模型训练。初始学习率设置为0.01,动量为0.937,并使用余弦退火策略动态调整学习率。训练阶段的批次大小(batch size)设置为12,训练周期(epoch)数设置为100。此外,在训练阶段,所有图像都被调整大小为640x640像素。

  • 评估指标

为全面评估我们提出模型的性能,我们采用了目标检测任务中常用的几个关键指标:精确率(P)、召回率(R)、mAP@0.5、mAP@0.5:0.95、参数量(Params)GFLOPs

  • 消融研究

为验证本文提出模型的有效性,我们选择YOLOv11-s作为基线网络,并通过消融实验评估了P2层、MFAM、Fusion、IEMA和DASI模块对基线网络的影响。如表I所示,当每个模块被添加到基线时,大多数性能指标均呈现上升趋势。因此,这些消融实验验证了本文提出方法的有效性。

图片3.png

如表II所示,通过调整网络的深度和宽度,我们评估了MASF-YOLO和YOLOv11的不同模型尺寸在VisDrone2019验证集和测试集上的性能。显然,我们提出的改进策略在所有版本上都实现了最佳性能。令人惊讶的是,将我们的贡献应用于YOLOv11-s后,其性能甚至超过了YOLOv11-m,在无人机场景中展现了卓越的精度-效率权衡。

图片4.png

  • 与最先进方法的比较

如表III所示,与最先进的目标检测器相比,所提出的模型保持了优异的准确性,并展现出强大的竞争力。

图片5.png

此外,在图5中,我们展示了两个极具代表性的检测结果,其中基线模型漏检但被MASF-YOLO-s成功检测到的小目标用红色边界框突出显示。可以观察到,MASF-YOLO-s实现了显著更准确的检测。

图片6.png


结论

在本工作中,我们通过多项改进提高了无人机遥感中小目标检测的准确性。首先,我们引入了一个小目标检测层,显著增强了网络检测小目标的能力。其次,我们将MFAM模块嵌入到骨干网络中,以从目标中提取丰富的上下文信息。此外,在颈部网络中加入了跳跃连接,以保留浅层语义信息并减少深层网络的信息损失。再者,采用IEMA模块来增强特征表示,同时减少背景噪声干扰。最后,采用DASI模块自适应地融合低层和高层特征,提高了颈部网络的特征融合能力。实验结果验证了这一改进策略的有效性和潜力,为小目标检测的进一步研究提供了有价值的见解。

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo-v5

Yolo

YOLO(You Only Look Once)是一种流行的物体检测和图像分割模型,由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出,因其高速和高精度而广受欢迎

虽然给定引用中未提及无人机小目标检测识别的相关内容,但一般而言,无人机小目标检测识别技术在多个领域有重要应用。 ### 技术与方法 - **基于传统计算机视觉方法**:早期采用特征提取与分类器结合的方式,如利用HOG(方向梯度直方图)特征描述目标的形状和边缘信息,再通过SVM(支持向量机)分类器进行目标识别。这种方法对光照、尺度变化等有一定的鲁棒性,但对于复杂场景下的小目标检测效果有限。 ```python # 示例代码:使用HOG和SVM进行目标检测 from skimage.feature import hog from sklearn import svm import cv2 # 提取HOG特征 def extract_hog_features(image): fd, hog_image = hog(image, orientations=8, pixels_per_cell=(16, 16), cells_per_block=(1, 1), visualize=True, multichannel=False) return fd # 训练SVM分类器 def train_svm(X_train, y_train): clf = svm.SVC() clf.fit(X_train, y_train) return clf # 读取图像并提取特征 image = cv2.imread('image.jpg', 0) features = extract_hog_features(image) ``` - **基于深度学习的方法**:卷积神经网络(CNN)的发展为无人机小目标检测带来了显著提升。如Faster R - CNN、YOLO(You Only Look Once)系列等目标检测算法被广泛应用。这些算法通过深度卷积网络自动学习目标的特征,在检测精度和速度上都有较好的表现。以YOLOv5为例,它采用了轻量级的网络结构,能够在保证检测精度的同时实现实时检测。 ```python # 示例代码:使用YOLOv5进行目标检测 import torch # 加载预训练模型 model = torch.hub.load('ultralytics/yolov5', 'yolov5s', pretrained=True) # 读取图像 img = 'image.jpg' # 进行检测 results = model(img) # 显示结果 results.show() ``` ### 研究进展 近年来,随着硬件计算能力的提升和算法的不断优化,无人机小目标检测识别的研究取得了显著进展。一方面,的网络结构不断涌现,如Transformer架构被引入到目标检测中,进一步提升了检测性能。另一方面,多模态信息融合的方法也受到关注,通过结合可见光、红外等多种传感器的数据,提高在复杂环境下小目标检测精度
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值