【论文阅读 | AAAI 2025 | FD2-Net:用于红外 - 可见光目标检测的频率驱动特征分解网络】

论文阅读 | AAAI 2025 | FD2-Net:用于红外 - 可见光目标检测的频率驱动特征分解网络

在这里插入图片描述

题目:FD2-Net: Frequency-Driven Feature Decomposition Network for Infrared-Visible Object Detection

会议: the Association for the Advance of Artificial Intelligence(AAAI)

论文:https://arxiv.org/abs/2412.09258

代码:未公开

年份:2025

1.摘要&&引言

红外 - 可见光目标检测(IVOD)旨在利用红外和可见光图像中的互补信息,从而提升复杂环境下检测器的性能。

然而,现有方法往往忽略互补信息的频率特性,例如可见光图像中丰富的高频细节和红外图像中有价值的低频热信息,这制约了检测性能。

为解决这一问题,提出了一种新的用于 IVOD 的频率驱动特征分解网络 FD2-Net,该网络能有效捕捉跨多模态视觉空间的互补信息所具有的独特频率表示。

具体而言,我们设计了一个特征分解编码器,其中高频单元(HFU)利用离散余弦变换来捕捉具有代表性的高频特征,而低频单元(LFU)则采用动态感受野对不同物体的多尺度上下文进行建模。接下来,我们采用无参数互补强度策略,通过无缝的跨频率重新耦合来增强多模态特征。

此外,我们创新性地设计了一种多模态重建机制,用于恢复特征提取过程中丢失的图像细节,进一步利用红外和可见光图像的互补信息来提升整体表示能力。

当前的 IVOD 方法仍存在三个缺点:

  • 缺点 1:它们往往忽略红外和可见光图像中物体特征的频率特性。红外成像主要捕捉低频热辐射,而可见光成像则强调高频细节。主流架构往往忽视这种固有属性,并将跨模态信息嵌入到统一的特征空间中,这导致无法提取特定于模态的特征。
  • 缺点 2:由于感受野固定,这些方法只能提取局部信息,难以适应红外和可见光图像中固有的位置偏差。此外,具有小内核的模型不足以有效捕捉远距离信息,而周围环境提供了关于物体大小、形状和其他特征的重要线索,因此远距离信息至关重要。
  • 缺点 3:最近的 IVOD 方法通常采用下采样操作来降低视觉噪声和计算开销,但这可能导致物体信息的丢失。特征表示的这种退化会严重影响检测头的定位和分类能力,最终降低检测性能。

在这里插入图片描述

图1:我们的FD2Net与现有IVOD方法的差异示意图。我们的算法采用频率解耦来分离红外和可见光图像中的高频和低频信息,从而有效利用多模态互补特征来提取更具判别性和鲁棒性的特征。

我们的研究探索了一种更合理的范式来解决 IVOD 任务中跨模态特征提取的这些挑战。基于上述分析,我们确定了三个关键对策(CM):

  • CM 1:我们从频率的角度重新审视特征提取过程。可见光图像提供了丰富的高频信息,如边缘和纹理,而红外图像则提供了有价值的低频热辐射信息。如图 1(I)所示,传统方法仅依赖冗余的跨模态相似线索,导致关键互补特征的丢失。相比之下,我们可以通过限制特征提取的频率空间,以更可控和可解释的方式从红外和可见光图像中捕捉具有判别性的互补信息。如图 1(II)所示,自适应频率解耦有助于在红外和可见光图像中保留更多具有代表性的低频和高频信息。
  • CM 2:从模型设计的角度来看,更大的内核有助于捕捉更广泛的场景上下文,从而减轻红外和可见光图像之间的几何偏差。然而,采用大内核卷积可能会引入大量背景噪声,并忽略感受野内的细粒度细节,这可能不利于小物体的精确检测。因此,我们并行排列多个不同大小的深度膨胀卷积,以在不同的感受野中提取多粒度纹理特征,从而完成 IVOD 任务。
  • CM 3:为了应对重复下采样导致的信息丢失,许多现有方法通常采用图像超分辨率等生成方法来缓解这一问题。然而,这些方法不仅需要构建高分辨率和低分辨率样本对,而且其生成过程往往会引入虚假伪影。相反,我们将一种简单而有效的多模态重建机制集成到 IVOD 框架中,利用红外和可见光两种模态的互补信息来恢复特征提取过程中丢失的结构和纹理细节。

本文的贡献可以总结如下:

  • 为 IVOD 提出了一种新的范式,称为 FD²-Net,旨在通过从红外和可见光图像中有效提取有价值的互补特征来提高检测性能。

  • 设计了高频单元(HFU)和低频单元(LFU),以有效捕捉红外和可见光图像中有判别性的频率信息。此外,还开发了一种互补强度策略,通过无缝的跨频率重新耦合来增强多模态特征。

  • 引入了跨重建单元(CRU)来促进跨模态互补信息的融合,从而进一步增强特征表示。

  • 大量的定性和定量实验验证了我们的 FD2-Net 的有效性,在 LLVIP(Jia 等人,2021)上达到 96.2% 的准确率,在 FLIR(F.A. Group,2018)上达到 82.9% 的准确率,在 M³FD(Liu 等人,2022a)上达到 83.5% 的准确率。

2. 方法

2.1总体架构

如图 2 所示,我们的 FD2-Net 由三个模块组成:

在这里插入图片描述

图2:我们的FD2-Net架构(上行)和核心组件(下行)示意图。该网络包含三个组件:
(1)特征分解编码器:在多模态视觉空间中有效提取高频/低频特征;
(2)多模态重建机制:通过多模态图像重建进一步学习各模态的判别性和互补性特征,以增强特征表示;
(3)多尺度检测头:利用来自(1)和(2)的视觉特征完成目标分类和定位。

  • 特征分解编码器。受频谱的启发,该模块引入了一个双分支架构,通过特征分解和融合来有效提取有价值的高频和低频特征。随后,通过互补优势策略,对具有代表性的频率特征进行重组,以提高整体表示能力。

  • 多模态重建机制。为了增强特征学习,对编码器最后一层的特征应用非对称交叉掩码策略,迫使每种模态从互补模态中获取有用信息。然后使用两个跨重建单元(CRU),利用红外和可见光图像的互补特征来恢复多模态图像。重建过程在像素级受均方误差约束。

  • 多尺度检测头。该模块构建了一个特征金字塔网络(FPN),利用编码器各个阶段提取的多尺度特征。在 FPN 的最高分辨率层,集成重建的多模态特征以进一步增强检测。最后,遵循 YOLOv5(Jocher,2020),配置三个不同尺度的检测头来精确检测物体。

2.2特征分解编码器

形式上,设 I ∈ R H × W I \in \mathbb{R}^{H \times W} IRH×W V ∈ R 3 × H × W V \in \mathbb{R}^{3 \times H \times W} VR3×H×W 分别为输入的红外和可见光图像,其中 H × W H \times W H×W 表示空间分辨率。首先,使用一个 6 × 6 6 \times 6 6×6 的 CBR 模块来降低分辨率并提取浅层多模态视觉特征 { X S I , X S V } ∈ R c × h × w \{ X_S^I, X_S^V \} \in \mathbb{R}^{c \times h \times w} { XSI,XSV}Rc×h×w。随后,我们首先将 { X S I , X S V } \{ X_S^I, X_S^V \} { XSI,XSV} 分别按比例 α \alpha α 拆分为两个分量:
• 一个分量用于表示高频成分,记为 Φ H = { X H I , X H V } ∈ R α c × h × w \Phi_H = \{ X_H^I, X_H^V \} \in \mathbb{R}^{\alpha c \times h \times w} ΦH={ XHI,XHV}Rαc×h×w,用于捕捉边缘、纹理等空间细节;

• 另一个分量 Φ L = { X L I , X L V } ∈ R ( 1 − α ) c × h × w \Phi_L = \{ X_L^I, X_L^V \} \in \mathbb{R}^{(1-\alpha)c \times h \times w} ΦL={ XLI,XLV}R(1α)c×h×w 则用于学习上下文、结构信息等低频内容。

高频特征注意力
我们的目标是分别从红外和可见光图像中有效提取高频分量。因此,我们引入了一个高频单元(HFU),它可以过滤出高频信息,并引导模型将注意力集中在更有价值的信息上。离散余弦变换(DCT)在图像压缩中表现出优越性,特别是在增强图像细节和纹理的同时消除噪声。基于此,我们将 DCT 融入 IVOD 中。这种变换引导卷积提取各种高频空间特征,并有效抑制红外 - 可见光图像中的高斯噪声和热噪声等噪声。

离散余弦变换(DCT)
对于图像 x ∈ R H × W x \in \mathbb{R}^{H \times W} xRH×W,其中 H H H W W W x x x 的高度和宽度,公式(1)给出了标准二维(2D)DCT 的定义,其数学定义为:
f h , w = ∑ i = 0 H − 1 ∑ j = 0 W − 1 x i , j B i , j h , w (1) f_{h,w} = \sum_{i=0}^{H-1} \sum_{j=0}^{W-1} x_{i,j} B_{i,j}^{h,w} \tag{1} fh,w=i=0H1j=0W1xi,jBi,jh,w(1)
其中基函数定义为:
B i , j h , w = cos ⁡ ( π h H ( i + 1 / 2 ) ) cos ⁡ ( π w W ( j + 1 / 2 ) ) (2) B_{i,j}^{h,w} = \cos\left(\frac{\pi h}{H}(i + 1/2)\right) \cos\left(\frac{\pi w}{W}(j + 1/2)\right) \tag{2} Bi,jh,w=cos(Hπh(i+1/2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值