LUD-YOLO:一种用于无人机的新型轻量级目标检测网络

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

77d16a96eb0004ec8ba71f7f003e5369.gif

a134c79e2116f01bd071bb1ab90d75d7.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

代码地址:www.sciencedirect.com/science/article/pii/S0020025524012805

计算机视觉研究院专栏

Column of Computer Vision Institute

亮点:

  • 专为无人机打造的轻量级目标检测网络 LUD - YOLO。

  • 提出全新特征融合模式,以解决特征交互退化问题。

  • 推出新型特征提取模块,提升推理速度。

  • 对模型进行轻量化调整,克服了在无人机应用中的不足。

  • 对比结果表明,LUD - YOLO 性能优于其他 10 种同类模型。

42bd5c29061d30262b5358895ee726f7.gif

PART/1

     概述    

无人机自主执行任务在很大程度上依赖于目标检测。然而,大多数图像中的目标检测面临着诸如背景复杂、目标小以及存在遮挡等挑战。此外,无人机处理器有限的计算速度和内存也影响了传统目标检测算法的准确性。

92b77a649e2cf414c888967eadeb1d1a.jpeg

我们提出了基于YOLOv8的面向无人机的小型轻量级目标检测算法LUD-Yolo 。该算法引入了一种新的多尺度特征融合模式,通过在特征金字塔网络和渐进式特征金字塔网络中引入上采样,解决了特征传播和交互中的退化问题。在Cf2模块中应用动态稀疏注意力机制,实现了灵活的计算分配和内容感知。此外,对所提出的模型进行了稀疏化和轻量化优化,使其能够部署在无人机边缘设备上。

最后,在VisDrone2019和UAVDT数据集上验证了LUD-YOLO的有效性和优越性。消融实验和对比实验结果表明,与原始算法相比,LUDY-N和LUDY-S在各项评估指标上均表现出色,这表明所提出的改进策略使模型具有更好的鲁棒性和泛化能力。而且,与其他多个流行的同类算法相比,所提出的改进策略使LUD-YOLO具有最佳的整体性能,为无人机目标检测在平衡模型大小和检测精度方面提供了有效的解决方案。

PART/2

     背景和动机   

近年来,由于无人机具有体积小、续航时间长、隐蔽性高以及操作简便等优点,它们能够替代人类执行更复杂或危险的特定任务。通过调整飞行位置和高度,无人机可以远距离探测并跟踪移动目标,从不同角度准确、快速地捕获目标信息,在短时间内实现对大面积区域的覆盖和监测,这使得无人机在军事和民用领域都广受欢迎。在农业领域,巴德拉(Bhadra)等人利用无人机获取的机载高光谱图像,实现了对玉米生物物理特性的准确高效估算;在电力领域,多(Duo)等人利用无人机实现了对配电线路的维护和检修;在地质勘探领域,刘等人利用无人机在高海拔山区实现了航空磁测;在城市巡检领域,万等人利用无人机在智慧城市中实现了对行人、车辆及其他物体的目标跟踪。利用无人机在复杂环境中实现目标识别和检测,极大地减轻了人类的工作量,但传统方法存在运行速度慢、精度低、计算冗余等问题,难以满足当前无人机发展的需求。因此,设计一种高效、准确的基于无人机的目标检测方法势在必行。

646aeec95f5e4437210a92baa5cd92e6.png

目前,主流的目标检测算法是基于深度学习的两阶段检测算法和一阶段检测算法。两阶段检测算法首先生成一系列样本候选框,然后使用卷积神经网络对这些样本进行分类,常用的有基于区域的卷积神经网络(R-CNN)、空间金字塔池化网络(SPP-Net)和快速R-CNN(Fast R-CNN)。刘等人提出了一种去噪特征金字塔网络,对R-CNN进行改进,以实现高精度的目标检测;韩等人提出了一种纯稀疏 R-CNN,以实现交通场景中的目标检测。这些算法在目标检测方面具有较高的精度,但其主要缺点是数据处理速度较慢。而一阶段检测算法则直接将目标边界框定位问题转化为回归问题,因此具有良好的推理速度。其中最具代表性的是近年来提出的 “你只需看一次”(YOLO)系列算法。陈等人提出了一种基于无人机图像的 YOLO-v4 目标检测方法,以实现对大型果园中杨梅树的快速检测和统计,谢等人使用 YOLO V5s 对无人机热成像图像进行检测,实现了对动物目标的快速识别,准确率达到 94.1%。然而,由于无人机航拍图像的特点,如背景信息复杂、目标物体尺度小、分布稀疏且不均匀,现有的工作中检测模型过大、精度较低,无法实现实时检测。因此,创建一个像 YOLO 那样在 “速度与精度” 之间保持平衡的无人机目标检测模型,具有重要的理论和实践意义。

71b56e34f47c048f2950276a9ca59415.jpeg

两阶段检测算法的改进大多集中在图像特征提取方面。尽管这些模型在复杂场景检测中实现了较高的检测精度,但融合后存在检测速度慢的缺点。然而,一阶段检测算法的改进大多侧重于提升框架中各个阶段的效果,比如采样效果、特征映射、激活函数等等,却忽略了整个检测模型的规模大小以及运行时的计算能力问题。总的来说,当前的许多研究仅关注目标检测的精度,而没有考虑到无人机嵌入式设备计算能力有限以及存储空间较小的情况。因此,提出一种兼顾处理速度和检测精度的无人机目标检测算法至关重要。

PART/3

     新算法框架   

特征融合方面的改进

在目标检测任务中,对于存在尺度差异的目标而言,合理的多尺度特征融合模式至关重要。我们将 YOLOv8中主干网络(Backbone)提取的特征图尺寸设置为C1-C5。该模型首先使用特征金字塔网络(FPN)结构,以 “自下而上” 的方式将C5特征上采样到与C3相同的尺寸。之后,再以 “自上而下” 的方式将特征下采样到C5尺寸,从而完成路径聚合网络(PAN)的处理过程。在这个过程中,各个层级的特征得到了充分的泛化,并且将FPN和PAN的特征进行融合,以实现简洁而有效的特征工程。然而,对于无人机图像中多尺度目标的精确检测,这种方法仍然存在以下局限性。一方面,从无人机视角获取的图像中,目标通常非常小,难以识别。因此,需要一种合适的小目标改进策略和特征复用方法。另一方面,FPN顶部的高级特征传递到特征底部的低级特征时,要经过多个中间尺度的传播。在特征融合之前,每个尺度的特征仅与相邻尺度的特征进行交互。在整个传播和交互阶段,来自高级特征的语义信息可能会减少或受损。换句话说,PAN中的自上而下方法可能会带来相反的问题,即:在整个传播和交互阶段,来自低级特征的复杂细节信息可能会减少或受损。为了解决上述问题,本文提出实施以下改进策略:
首先,为了提高无人机目标检测的精度,我们在特征金字塔网络(FPN)中集成了一种上采样技术。具体来说,这一改进包括在FPN-PAN中将C5的特征上采样到C2的尺寸,然后再上采样回C5的尺寸。在这个过程中,重点是最大限度地实现主干网络(Backbone)与FPN-PAN之间的特征复用和交互。因此,将相同尺寸的特征图进行拼接,在无需额外特征的情况下提高了特征利用效率,并且在一定程度上减轻了特征退化的问题。此外,三个检测头的架构始终保持不变,避免了为C2特征尺寸引入检测机制。这种方法有助于消除参数冗余和计算冗余。
其次,引入渐进式特征金字塔网络(AFPN)有效地缓解了特征传播和交互过程中与特征退化相关的问题。AFPN采用自适应空间融合技术,在多级融合过程中有选择地融合特征。其渐进式架构确保随着融合的进行,不同特征层级的语义信息更加一致。该过程分为两个关键阶段:首先,将两个不同分辨率的低级特征进行合并,启动融合序列,同时在目标检测的背景下保留来自较大特征图的关键信息。随后,系统逐渐将高级特征融入其中,最终实现对所有尺寸特征的全面融合,提升检测能力。这种融合方法可以避免非相邻层级之间出现较大的语义差距,如下图所示。

2e55ad5d062ce31ed93637ae234c1aa1.png

然而,这一过程可能会导致边缘设备的推理速度变慢,对检测速度产生负面影响。因此,为了解决无人机目标检测中的个性化问题,本文引入了渐进式特征金字塔网络(AFPN)的理念,以解决在C2到C4尺寸变化过程中出现的信息衰减问题,确保从小目标到较大目标的特征信息得以保留,并在特征工程效果和检测速度之间实现更好的平衡。

7aab0b82ed6d7738a98ad9c0888c0a92.png

特征提取方面的改进

在小目标检测过程中的图像特征提取方面,首先,良好的特征应具备以下特点:单个样本本身具有稀疏性,也就是说,每个样本仅需极少的非零值就能对其进行描述;多个样本之间也存在稀疏性,即特征矩阵中每行所表示的特征仅有少量非零值;图像的特征分布均匀且一致,也就是说,每个特征的统计属性都相近。其次,在YOLOv8中,主干网络(Backbone)主要使用了大量的C2f模块。与YOLOv5中的C3模块不同,C2f模块充分考虑了丰富的梯度流信息,实现了更好的特征提取能力。然而C2f仍然由卷积神经网络构成,本质上属于局部算子。相比之下,注意力机制的一个关键特性是具有全局感受野,通过使用注意力机制可以捕捉特征之间的长距离依赖关系。

因此,我们将特征的稀疏表示引入到主干网络(Backbone)中,并利用自注意力机制来捕捉长距离的上下文语义联系,从而提升了网络的特征提取能力。在本文中,我们将具有稀疏关系的注意力机制模块 ——Biform 模块应用于C2f模块中。在利用上述优势的同时,它减少了注意力机制存在的内存占用量大和计算成本高的问题。总体而言,它还可以减小原始YOLOv8模型的规模,并提高推理速度。

将上述思路应用于C2f模块,从而形成了C2f-BRA模块,如下图所示:

615bf92545264874d6c22aa5da2c209b.png

LUD-YOLO 的轻量化调整

当将目标检测模型部署到无人机上时,需要使用嵌入式设备推理模型。一般来说,影响模型实际部署的因素包括模型的大小、运行时占用的内存以及计算量。在对目标检测模型进行推理时,卷积神经网络的激活响应过程会占用大量的运行内存,这对于嵌入式设备来说是很大的资源负担。在本文中,我们使用 “网络瘦身” 方法[Coresets based asynchronous network slimming]对训练好的模型进行稀疏化处理,并采用一种简单有效的网络再训练解决方案,以便在资源有限的情况下实现无人机边缘设备的部署。

这种方法的本质是对原始网络中卷积块的批量归一化(BN)层内的缩放因子应用L1正则化约束。这会使BN缩放因子的值更接近零。这个过程不会从宏观上改变检测网络的结构,而只是添加了额外的正则化项,基本上不会影响模型的整体性能。具体来说,在对模型进行剪枝之前,对模型中的BN层应用L1正则化约束并开始训练。训练完成后,设置剪枝比例,通过将权重按降序排列并使用剪枝比例来选择保留的卷积通道。由于每个权重都对应一个特定的卷积通道,网络中不太敏感的卷积通道将被剪枝。实际上,在某些情况下,这有助于模型的泛化并提高其鲁棒性。此外,修剪不重要的通道可能会暂时降低模型的性能。因此,在对模型进行剪枝后,必须使用网络再训练(微调)来弥补精度的损失,并恢复到与之前相同的推理能力。由于在本文所提出的网络中,主干网络和颈部网络的C2-C5层存在特征融合过程,为了在确保特征工程质量的同时减少参数数量,参与特征融合的网络以及C2f-BRA模块不参与敏感性分析。整个轻量化调整过程包括四个步骤:添加正则化约束、获取敏感性、修剪未达到阈值的卷积通道以及微调,这可以用下表中给出的伪代码来表示。

7e56c52592731a9d6dba297fb4db5b04.png

在完成 “网络瘦身” 过程后,与初始检测模型相比,所得到的新网络更加紧凑,在模型大小、运行时内存占用以及计算时间方面表现更优。上述轻量化过程通常可以重复多次,从而得到一个多轮次的网络瘦身方案,以使网络更加简洁。在本文中,选择了按比例剪枝的形式来实施上述过程,比例因子为 0.8。下图展示了卷积层与缩放因子之间的关系。

e718fd852d9c8b42a00fcdee42ade0bf.png

至此,便可以得到整个LUD-YOLO模型的结构示意图,如下图所示。该图展示了所提出的改进后的特征融合方法、C2f-BRA模块的应用情况,以及模型训练后的轻量化处理过程,最终使模型适配于无人机以完成目标检测任务。与YOLOv8的N/S/M/L/X这5种变体类似,本文分别将改进策略应用于YOLOv8-n和YOLOv8-s模型,将其命名为LUDY-N和LUDY-S,以此来考虑适用于无人机的轻量化模型。基准模型YOLOv8-n是特别适用于边缘设备的最小检测模型,而基准模型YOLOv8-s则是在有限计算资源下检测效果最佳的模型。

140614473204f6250d829bf1c6948d8e.jpeg

PART/4

     实验及可视化   

这个数据集的发布旨在推动无人机视觉算法的发展和性能评估。所提出的LUD-YOLO模型将在包含大量丰富样本的VisDrone2019数据集中进行验证,以便更好地评估模型的性能。

f744f414961dd30cb90288a69da2f13b.jpeg

上图展示了数据集中示例图像的具体分布情况、标签数量以及标签的尺寸大小。可以看出,这个数据集具有以下难点和特点。首先,检测目标明显具有数量众多、模糊不清、尺寸较小且容易混淆的突出特征。在示例场景中,很难区分 “行人” 类别和 “人群” 类别。从无人机拍摄的角度来看,目标物体的尺寸变化范围很大,并且相互遮挡的情况更为明显,这对目标检测算法的性能是一个巨大的挑战。其次,每个类别的标签数量存在很大差异。数据集中 “汽车” 类别的锚框数量达到了144867个,而 “遮阳三轮车” 类别的锚框数量仅为3246个。类别之间样本的不平衡表现会对检测模型的鲁棒性提出更高的要求。第三,从整体或单个类别来考虑锚框的尺寸分布情况可以发现,除了 “厢式货车”、“卡车”、“汽车” 和 “公交车” 类别中有大量的中大型锚框外,大多数锚框的尺寸都在100×100像素值范围内,尤其是尺寸在50×50像素值范围内的小目标数量最为集中,因此在无人机目标检测中,模型对小目标的检测能力至关重要。

2cba517dd24b6807de8317729a2f2a74.png

该模型在一些测试集上的检测结果如上图所示。实验选取了多种类型的检测场景,如复杂背景、遮挡、暗光、目标密集、小目标以及俯拍视角等检测场景作为检测样本,这对检测模型的鲁棒性提出了很高的要求。可以看出,所提出的模型很好地完成了检测任务,并且能够在各种场景中准确识别并确定目标位置。然而,也存在以下问题。一方面,所提出的模型在密集场景中区分 “行人(Pedestrain)” 和 “人群(People)” 的准确性有待提高。特别是在人群密集的场景中,人们的姿势各异,上述两类的检测效果容易混淆;另一方面,对于小尺寸的 “摩托车(Motor)” 和 “三轮车(Tricycle)” 类别,仍然存在漏检情况。在成像效果固定且模型为轻量化的前提下,持续提高对小目标的检测效果将对无人机目标检测大有益处。

有相关需求的你可以联系我们!

240f7f8ccb9905d75ecc4e3a40c13e0f.png

1cb9acf4e466f88860c0afd47574718d.gif

END

12f6b114e196f68ceda7f6c95eb65494.gif

5d581d7d1cb6666e9004b2e87b18ddde.gif

转载请联系本公众号获得授权

513e02b46ca23ffd4a5c90a8d843e144.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!


往期推荐 

🔗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值