论文阅读|可见光与红外图像融合 | WaveMamba: Wavelet-Driven Mamba Fusion for RGB-Infrared Object Detection

摘要:

利用可见光和红外图像的互补特性,改进目标检测。提出了WaveMamba,一种使用离散小波变换(DWT)分解的RGB和IR独有的互补频率特征的跨模态融合方法。还提出了一种结合逆离散小波变换(IDWT)的改进检测头,减少了信息损失并产生最终检测结果。

方法核心是WMFB(WaveMamba Fusion Block--WaveMamba融合模块)--有助于低频、高频子带的全面融合。

在WMFB模块中,基于mamba框架的LMFB(Low-frequency Mamba Fusion Block--低频mamba融合模块)首先通过通道交换执行出事低频特征融合没然后通过高级注意力机制以增强融合。

使用“绝对最大值”融合方法增强高频特征。

这些改进带来了显著的性能提升,我们的方法超过了SOTA,在四个基准上实现了4.5%的平均mAP改进。

  1. 引言

    RGB和IR图像的多谱特征融合已经在计算机视觉领域成为了一项关键技术。这尤其适用于具有挑战性环境的场景,仅使用传统方法是不够的:       

  • 基于RGB的方法会面临低光、坏天气,因为RGB图像可能会失去细节信息和对比度。

  • 红外图像在这些场景中捕捉与光无关的热信号而在这些情况下表现出色,从而提供补充信息。然而,将不同的模式整合到一个连贯的框架中带来了巨大挑战,包括有效融合异步数据并保持计算效率。

  • (研究现状)过去几十年,提出了许多融合可见光和红外图像的方法,用于跨模态目标检测。包括基于CNN的、Transformer、Mamba的方法。虽然基于CNN的方法已经证明取得了成功,但是它们往往难以捕捉长距离依赖关系,导致人们对基于Transformer的方法越来越感兴趣。-->最近,Transformer的高计算复杂度激励了Mamba方法的发展,提供了一个更有效的替代方案。比如:Gao等人提出了MambaST,一个有效的多光谱空间-通道融合管道,通过采用多头分层修补和聚合结构来融合可见光和红外图像,增强了行人识别。因此,我们使用Mamba框架最为我们特征融合的基础,因为它能够平衡效率和性能。

  • 即使现有的跨模态目标检测算法表现出了优异的性能,但对于有效利用通道之间的固有特征进行优势互补仍存在不足。我们努力从频域中探索答案。如图1a所示,对M3FD的验证集使用离散小波变换(DWT)显示:IR在低频子带表现出更高的归一化信息熵;而RGB图像在高频子带表现出更高的归一化信息熵。归一化信息熵值表现出了图像所携带的信息量。笼统地说,信息熵值越大,图像的内容越丰富。这个统计结果表明rgb图像更善于捕捉高频信息,相反的,IR图像主要封装低频信号。此外,图1b表明了p2级RGB和IR特征的DWT输出,这些特征来自yolov8骨干对每个相应的通道进行训练。低频和高频分量分别被红色和蓝色虚线框标出。在低频区域,IR特征一更清晰的形状显现,而RGB特征在高频区域显现出更明显的边缘和轮廓,证实了其独特的频率特征。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值