DEYOLO和YOLO-MS

一:DEYOLO:用于跨模态对象检测的双特征增强YOLO

论文链接DEYOLO

        这篇文章主要融合RGB图像和红外图像,RGB图像提供丰富的纹理、颜色等细节信息,但易受到天气影响。红外图像不受天气影响能显示出场景中的热分布问题。为了提高在光照下的检测能力,将两者的优点进行结合,提高检测效果。作者主要在YOLO的基础上,创建了3个新的模块。1.DECA(a dual semantic enhancing channel weight assignment module),通过给通道赋予不同的权重,得到重要的通道,与另一种模态进行相乘,获得另一种模态的语义和纹理信息。2.DEPA(Dual Spatial Enhancing Pixel Weight Assignment Module),通过不同卷积核大小,学到空间信息的差异,与另一种模态相乘,获得另一种模态的空间信息。3.Bi-direction Decoupled Focus,设计了双向解耦焦点,以在多方向上充分保留信息。具体来说,采用了水平和垂直实现的两种特定的采样和编码规则。像素分成两组进行卷积。每一组同时关注相邻的像素和远程的像素。最后,将原始的特征映射连接到通道维数中,并使其进行深度卷积层。

二:YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

从知乎上找到关于这篇文章的翻译

1.反思基本构建块中的多尺度特征学习:受Res2Net的启发,聚合来自不用的特征进行表示,并采用倒瓶颈层取代3×3,享受大核卷积。

2.Global Query Learning

受Transformer的影响,作者设计了有效的策略,Global Query Learning。我们持有一个轻量级和可学习的全局查询,通过不同的阶段将全局空间信息转换为每个块,以增加分支之间的多样性。它使当前块的空间信息K能够指示权重,该权重用于根据每个分支所在的阶段和来自前一阶段的信息来安排每个分支的影响。请注意,我们只在主干的第2、3和4个阶段使用GQL,以便更好地在计算成本和有效性之间进行权衡。

Fms为旨在增强分支间特征多样性的多尺度块。但其实这部分不太理解,没太懂作者的意思。有时间的话会去再看看代码了解一下,这里就是简单翻译了下文章的内容。

3.Heterogeneous Kernel Size Selection Protocol

从浅层阶段提取的高分辨率特征通常用于捕获细粒度语义,这些语义将用于检测小物体。相反,来自网络深层阶段的低分辨率特征被用于捕获高级语义,这些语义将用于检测大型对象。因此,在最初阶段采用小核卷积,然后逐渐增加。

4.结构

模型的主干包括四个阶段,每个阶段之后都是3×3卷积和步幅2进行降采样。采用RTMDet [50]作为基线。在编码器中,使用SiLU [12]作为激活函数,并使用BN [28]进行归一化。在第三个阶段之后添加了一个SPP块[26]。使用PAFPN作为颈部,融合了从主干网的不同阶段提取的多尺度特征。在颈部使用的基本构建块也是MS-Block,HKS也同样用于颈部和头部。

备注:Res2Net。

优点 1. 多尺度特征提取能力强

通过引入一种新颖的多尺度特征表示模块,能够在不同尺度上捕捉图像特征。在传统的卷积层中,每个卷积核通常在固定的感受野上进行特征提取,而RES2NET将特征图划分为多个子集,并以不同的方式进行卷积操作,使得模型可以同时处理不同尺度的信息。这种多尺度特征提取能力有助于模型更全面地理解图像内容,提高在目标检测、语义分割等任务中的性能。例如在检测不同大小的目标时,能够更好地适应目标的尺度变化。

2. 有效扩大感受野

通过其独特的架构设计,RES2NET能够有效地扩大卷积层的感受野。较大的感受野可以让模型捕捉到更广泛的上下文信息,这对于理解图像中的全局信息和目标之间的关系非常重要。在处理复杂场景或需要考虑上下文信息的任务中,RES2NET能够表现出更好的性能。

3. 灵活性与可扩展性

RES2NET的结构具有一定的灵活性,可以方便地集成到现有的深度学习架构中。无论是用于图像分类、目标检测还是其他计算机视觉任务,都可以将RES2NET模块替换原有的卷积层或作为额外的特征提取模块,从而提升模型的性能。而且可以根据具体任务的需求调整模块的参数,以适应不同的数据集和计算资源。

4. 缓解梯度消失问题

类似于ResNet,RES2NET中的跳跃连接有助于缓解梯度消失问题。在深层网络的训练过程中,梯度能够更顺畅地反向传播,使得网络可以训练得更深,从而学习到更复杂的特征表示。这使得模型在处理复杂的视觉任务时能够表现出更好的性能。

缺点: 1. 计算复杂度较高

由于RES2NET需要在多个尺度上进行特征提取和处理,与一些传统的卷积神经网络相比,其计算复杂度相对较高。这意味着在训练和推理过程中需要更多的计算资源和时间,对于一些计算资源有限的设备(如移动设备、嵌入式系统)来说,可能会面临较大的挑战。

2. 训练时间长

较高的计算复杂度导致训练RES2NET模型需要更多的时间。尤其是在使用大规模数据集进行训练时,训练时间会显著增加,这不仅增加了计算成本,也延长了模型的开发周期。

3. 对数据量要求较高 为了充分发挥RES2NET多尺度特征提取的优势,需要大量的数据进行训练。如果数据集规模较小,模型可能会出现过拟合的问题,导致在测试集上的性能不佳。因此,在数据量有限的情况下,RES2NET的优势可能无法得到充分体现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值