1. 背景与动机
RGB和红外图像在目标检测中具有互补特性:RGB图像在光照充足时提供丰富的纹理细节(高频特征),但在低光或恶劣天气下表现不佳;红外图像则依赖热辐射信息,在低光条件下鲁棒性强,但细节较少(低频主导)。现有融合方法(如CNN或Transformer-based)存在局限性:CNN难以捕获长距离依赖,Transformer计算复杂度高,且均未充分利用频率域的互补性。
如图1所示,通过离散小波变换(DWT)分析M3FD数据集,发现IR图像在低频子带(如LL)信息熵更高(富含结构信息),而RGB图像在高频子带(如LH、HL、HH)信息熵更高(富含边缘细节)。这验证了频域互补性,为设计高效融合方法提供了依据。
2. 方法细节
WaveMamba的整体架构包括三部分:双流特征提取骨干(集成DWT)、多级WaveMamba Fusion Blocks(WMFB)、改进的YOLOv8检测头(集成逆DWT, IDWT)。核心创新是WMFB,它针对低频和高频特征设计不同融合策略。
2.1 整体架构