MambaYOLO:基于状态空间模型的目标检测简易基线方法

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

源代码:https://github.com/dusongjie/TSD-YOLO-Small-Traffic-Sign-Detection-Based-on-Improved-YOLO-v8

计算机视觉研究院专栏

Column of Computer Vision Institute

受深度学习技术飞速发展的推动,YOLO系列为实时目标检测器树立了新的标杆。此外,基于Transformer的架构已成为该领域最强大的解决方案,极大地拓展了模型的感受野,并实现了显著的性能提升。

PART/1

     概述   

受深度学习技术飞速发展的推动,YOLO系列为实时目标检测器树立了新的标杆。此外,基于Transformer的架构已成为该领域最强大的解决方案,极大地拓展了模型的感受野,并实现了显著的性能提升。然而,这种提升是有代价的,自注意力机制的二次复杂度增加了模型的计算负担。为解决这一问题,我们提出了一种简单而有效的基线方法,名为MambaYOLO

我们的贡献如下:

1)我们提出在ODMamba主干网络中引入具有线性复杂度的状态空间模型(SSM),以解决自注意力的二次复杂度问题。与其他基于Transformer和基于SSM的方法不同,ODMamba无需预训练,易于训练。

2)针对实时性要求,我们设计了ODMamba的宏观架构,确定了最优的阶段比例和缩放尺寸。

3)我们设计了RG模块,该模块采用多分支结构对通道维度进行建模,解决了SSM在序列建模中可能存在的局限性,如感受野不足和图像定位能力弱等问题。

这种设计能够更准确、更显著地捕捉图像的局部依赖关系。在公开的COCO基准数据集上进行的大量实验表明,与以往的方法相比,MambaYOLO达到了当前最优性能。具体而言,MambaYOLO的轻量版在单张4090GPU上的平均精度均值(mAP)提升了7.5%,推理时间为1.5毫秒。

PART/2

     引言   

近年来,深度学习发展迅速,尤其是在计算机视觉领域,一系列强大的架构取得了令人瞩目的性能。从卷积神经网络到视觉Transformer,各种架构的应用展现了它们在计算机视觉领域的巨大潜力。

下游目标检测任务在目标检测的下游任务中,主要使用的是卷积神经网络和Transformer架构。虽然卷积神经网络及其一系列改进方法在保证准确性的同时具备较快的执行速度,但它们在处理图像相关性方面表现欠佳。为了解决这一问题,研究人员将视觉Transformer引入目标检测领域,例如DETR系列,该系列利用了自注意力强大的全局建模能力。随着硬件的发展,这种架构带来的内存计算量增加不再是太大的问题。然而,近年来,更多的研究工作开始重新思考如何设计卷积神经网络,以使模型运行速度更快,而且越来越多的从业者对Transformer架构的二次复杂度感到不满。他们开始使用混合架构来重构模型并降低复杂度,例如MobileVitEdgeVitEfficientFormer。不过,混合模型也带来了挑战,性能明显下降是一个令人担忧的问题。因此,在性能和速度之间找到平衡一直是研究人员关注的重点。最近,基于结构化自调制(SSM)的方法,如Mamba,因其对长距离依赖关系的强大建模能力以及线性时间复杂度的优势,为解决这些问题提供了新的思路。本文提出了一种名为MambaYOLO的检测器模型。我们设计了目标检测结构化模块ODSSBlock,如图2所示,将SSM应用于目标检测领域。与用于图像分类的视觉状态空间块不同,目标检测任务通常涉及分辨率和像素密度更高的图像。由于SSM主要是为文本序列建模而设计的,它本身缺乏充分挖掘图像中通道深度信息的能力。为了利用这些高分辨率图像提供的更丰富细节和多通道信息,我们引入了残差门控(RG)块架构。该结构采用二维选择性扫描(SS2D)处理来优化输出,利用高维点积运算增强通道间的相关性,并提取更丰富的特征表示。我们在MSCOCO数据集上进行了大量实验,结果表明,MambaYOLOMSCOCO的通用目标检测任务中具有很强的竞争力。本文的主要贡献总结如下:-我们提出的基于SSMMambaYOLO具有简单高效的结构,内存复杂度为线性,并且无需在大规模数据集上进行预训练,为目标检测中的YOLO系列建立了新的基线。-我们提出了ODSSBlock来弥补SSM的局部建模能力。通过重新思考多层感知机(MLP)层的设计,我们结合门控聚合的思想、有效卷积和残差连接,引入了RG块,它能够有效捕捉局部依赖关系并增强模型的鲁棒性。-我们设计了一组不同规模的模型,即MambaYOLO(轻量版/基础版/大型版),以支持不同规模和大小的任务部署。如下图所示:

PART/3

     新框架   


实时目标检测器早期YOLO的性能提升与骨干网络的改进密切相关,这也促使DarkNet得到广泛应用。YOLOv7提出了E-ELAN结构,在不破坏原有模型的基础上增强了模型能力。YOLO8融合了前代YOLO的特点,采用了具有更丰富梯度流的CSPDarknet532-阶段特征金字塔网络(C2f)结构,该结构轻量级且能适应不同场景,同时兼顾了准确性。最近,GoldYOLO引入了一种名为聚集与分发(GD)的新机制,该机制通过自注意力操作实现,解决了传统特征金字塔网络和Rep-PAN的信息融合问题,并成功达到了当前最优性能。
端到端目标检测器DETR
首次将Transformer引入目标检测领域,采用Transformer编码器-解码器架构,绕过了像锚框生成和非极大值抑制等传统手工设计的组件,将检测问题视为一个简单的集合预测问题。可变形DETR引入了可变形注意力,这是Transformer注意力的一种变体,用于在参考位置周围采样一组稀疏的关键点,解决了DETR在处理高分辨率特征图时的局限性。DINO集成了混合查询选择策略、可变形注意力,并展示了通过注入噪声进行训练以及通过查询优化实现的性能提升。RT-DETR提出了一种混合编码器,用于解耦尺度内交互和跨尺度融合,以实现高效的多尺度特征处理。然而,DETR系列的优异性能在很大程度上依赖于在大规模数据集上的预训练操作,并且DETR系列面临训练收敛、计算成本和小目标检测等挑战,因此在小模型领域,YOLO系列在准确性和速度方面仍然处于领先地位。
视觉状态空间模型
基于对状态空间模型(SSM)的研究,Mamba在输入大小方面呈现出线性复杂度,解决了Transformer在长序列状态空间建模中的计算效率问题。在通用视觉骨干网络领域,VisionMamba提出了一种基于选择性SSM的纯视觉骨干网络模型,这是Mamba首次被引入视觉领域。VMamba引入了跨扫描模块,使模型能够对二维图像进行选择性扫描,增强了视觉处理能力,并在图像分类任务中展现出优越性。LocalMamba专注于视觉空间模型的窗口扫描策略,优化视觉信息以捕捉局部依赖关系,并引入动态扫描方法为不同层寻找最优选择。受VMamba在视觉任务领域取得的显著成果启发,本文首次提出了MambaYOLO,这是一种新的SSM模型。与传统的基于SSM的视觉骨干网络不同,它无需在大规模数据集(如ImageNetObject365)上进行预训练,旨在兼顾全局感受野的同时,在目标检测中展现其潜力。
整体架构MambaYOLO的架构概览如下图所示:

我们的目标检测模型分为ODMamba骨干网络和颈部(neck)部分。ODMamba由简单茎(SimpleStem)、下采样模块(DownsampleBlock)组成。在颈部,我们沿用路径聚合特征金字塔网络(PAFPN)的设计,使用ODSSBlock模块替代C2f模块,以捕捉更丰富的梯度信息流。骨干网络首先通过茎模块进行下采样,得到分辨率为$\frac{H}{4}$×$\frac{W}{4}$的二维特征图。随后,所有模型都由ODSSBlock模块和视觉线索合并(VisionClueMerge)模块组成,后者用于进一步下采样。在颈部,我们采用PAFPN的设计,用ODSSBlock模块替代C2f模块,其中卷积层(Conv)仅负责下采样。

SimpleStem

Vision TransformerViTs)通常采用分块(segmentedpatches)作为初始模块,将图像划分为不重叠的片段。这种分割过程是通过内核大小为4、步长为4的卷积操作实现的。然而,如EfficientFormerV2等近期研究表明,这种方法可能会限制视觉Transformer的优化能力,进而影响整体性能。为了在性能和效率之间取得平衡,我们提出了一种简化的茎层(streamlinedstemlayer)。我们没有使用不重叠的图像块,而是采用两个步长为2、内核大小为3的卷积操作。

视觉线索合并(VisionClueMerge

虽然卷积神经网络(CNNs)和视觉TransformerViTs)结构通常使用卷积进行下采样,但我们发现这种方法会干扰二维选择性扫描(SS2D)在不同信息流阶段的选择操作。为了解决这个问题,VMamba将二维特征图分割,并使用1×1卷积进行降维。我们的研究结果表明,为状态空间模型(SSM)保留更多视觉线索有助于模型训练。与传统的维度减半方法不同,我们通过以下方式简化了这一过程:1.去除归一化操作。2.分割维度图。3.将多余的特征图附加到通道维度。4.使用4倍压缩的逐点卷积进行下采样。与使用步长为23×3卷积不同,我们的方法保留了前一层由SS2D选择的特征图。

二维选择性扫描(SS2D)的扫描扩展(ScanExpansion)、S6模块(S6Block)和扫描合并(ScanMerge)是SS2D算法的三个主要步骤,其主要流程如下图所示。

扫描扩展操作将输入图像扩展为一系列子图像,每个子图像表示一个特定的方向。从对角线视角来看,扫描扩展操作沿着四个对称方向进行,分别是从上到下、从下到上、从左到右以及从右到左。这样的布局不仅全面覆盖了输入图像的所有区域,而且通过系统的方向变换为后续的特征提取提供了丰富的多维信息基础,从而提高了对图像特征进行多维捕捉的效率和全面性。SS2D中的扫描合并操作将得到的序列作为S6模块的输入,并将来自不同方向的序列进行合并,以便将特征提取为全局特征。

PART/4

     实验及可视化   

我们针对目标检测任务对MambaYOLO进行了全面的实验。我们使用MSCOCO数据集来验证所提出的MambaYOLO的优越性,并与当前最先进的方法进行比较。我们所有的模型都在8NVIDIAH800GPU上进行训练。

与当前最先进方法的比较上表展示了在MSCOCO验证集上的实验结果,结果表明我们提出的方法在浮点运算次数(FLOPs)、参数数量、准确性以及测量的GPU延迟之间实现了最佳的整体权衡。具体而言,与高性能的微型轻量级模型,如PPYOLOE-S/YOLO-MS-XS相比,MambaYOLO-T的平均精度(AP)显著提高了1.1%/1.5%,同时GPU推理延迟降低了0.9毫秒/0.2毫秒。与具有相似准确性的基线模型YOLOv8-S相比,MambaYOLO-T的参数数量减少了48%,浮点运算次数减少了53%,并且GPU推理延迟降低了0.4毫秒。与参数数量和浮点运算次数相近的Gold-YOLO-M相比,MambaYOLO-B的平均精度(AP)提高了3.7%。即使与准确性相当的PPYOLOE-M相比,MambaYOLO-B的参数数量减少了18%,浮点运算次数减少了9%,并且GPU推理延迟降低了1.8毫秒。对于更大的模型,MambaYOLO-L在所有先进的目标检测器中也取得了更好或相当的性能。与表现最佳的Gold-YOLO-L(王等人,2024年)相比,MambaYOLO-L的平均精度(AP)提高了0.3%,同时参数数量减少了0.9%。从该表中可以看出,采用从头开始训练方法的MambaYOLO-T的性能优于所有其他训练方法。

上图比较了MambaYOLO-LDINO-R50在每秒帧数(FPS)和GPU内存使用方面的情况,结果表明MambaYOLO-L在分辨率提高时仍能保持更好的精度和速度,且内存效率和浮点运算次数呈线性增长。这些比较结果表明,在MambaYOLO的不同规模模型中,我们提出的模型相对于现有的最先进方法具有显著优势。

上图展示了这些变体,上表显示了原始多层感知机(MLP)、RG块以及每种变体在MSCOCO数据集上的性能表现,测试模型为MambaYOLO-T,以此来验证我们对多层感知机分析的有效性。我们观察到,单独引入卷积并不能有效地提升模型性能,而在图6所示的门控多层感知机变体中,其输出由两个元素相乘的线性投影组成,其中一个包含残差连接的深度可分离卷积(DWConv)和门控激活函数。实际上,这赋予了模型通过层次结构传播重要特征的能力,并有效地提高了模型的准确性和鲁棒性。该实验表明,在处理复杂图像任务时,引入卷积对模型性能的提升与门控聚合机制密切相关,前提是这些卷积是在残差连接的背景下应用的。

可视化为了进一步证实我们所提出的检测框架的优势,我们从MSCOCO数据集中随机选取了两个样本。

上图展示了MambaYOLO与各主流检测器的可视化结果。可以看出,MambaYOLO能够在各种复杂条件下实现精确检测,在检测高度重叠、严重遮挡且背景复杂的物体时表现出很强的能力,并且在检测高度重叠和严重遮挡的物体方面同样展现出了强大的能力。

结论

我们提出了一种基于状态空间模型(SSM)设计并由YOLO改进扩展的检测器,其训练过程极为简便,因为无需在大规模数据集上进行预训练。我们重新分析了传统多层感知机(MLP)的局限性,并提出了残差门控(RG)块。RG块的门控机制以及深度卷积残差连接旨在赋予模型在层次结构中传播重要特征的能力。我们的目标是为YOLO系列建立一个新的基线,证明MambaYOLO具有很强的竞争力。我们的工作是对Mamba架构在实时目标检测任务中的首次探索,同时也希望能为该领域的研究人员带来新的思路。

有相关需求的你可以联系我们!

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!


往期推荐 

🔗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值