多模态融合[22]:2025TPAMI——FreeFusion: Infrared and Visible Image Fusion via Cross Reconstruction Learning

部署运行你感兴趣的模型镜像

        大连理工卢湖川组博士生的工作,在今年的valse上加了一下这篇文章的作者并且和他讨论了一下,觉得这个工作的idea非常巧妙,借此机会来分析一下这篇工作!~

论文链接:https://ieeexplore.ieee.org/document/11010882

目录

一.摘要

二.Intro

三.Related Work

3.1 无监督融合方法

3.2 自监督融合方法

3.3 联合多任务融合方法

四.方法

4.1 交叉重建学习

通过 SRi→i 和 SRv→v 进行特征提取

通过 CRi→v 和 CRv→i 进行特征融合

4.2 动态交互式融合

4.3 架构

4.4 模型训练与推理

交叉重建学习 (CRL) 的设计

动态交互式融合 (DIF) 的结构

五.实验

1. 实验设置

2. 消融研究

3. 与最先进方法的比较

4. 泛化实验与高层任务性能

六.结论


一.摘要

        现有的融合方法通常凭经验设计复杂的融合损失函数,以保留源图像中的特定特征。由于图像融合任务没有“地面真实”(ground truth)数据作为参考,人工设计的损失函数可能无法使融合图像包含所有关键特征,进而影响后续高层任务的性能。本文认为,当前主要存在两个挑战:源图像之间的域差异不同层级任务中的语义不匹配

        本文提出了一种基于交叉重建学习的红外与可见光图像融合方法,该方法不使用任何人工设计的融合损失函数,而是促使网络自适应地融合源图像的互补信息。首先,我们设计了一个交叉重建学习模型,该模型将融合特征解耦,以重建另一种模态的源图像。这迫使融合网络学习两种模态特征的域自适应表示,从而在潜在空间中实现它们的域对齐。其次,我们提出了一种动态交互式融合策略,该策略在融合特征和目标语义特征之间建立了一个关联矩阵,以克服语义不匹配问题。此外,我们进一步增强了强关联特征并抑制了弱关联特征,以提高交互能力。在三个数据集上进行的大量实验表明,与现有最先进的方法相比,本文方法展现出卓越的融合性能,同时显著提升了分割精度。我们的代码已在 https://github.com/HengshuaiCui/FreeFusion 公开。


该论文的核心创新在于提出了两种策略

  • 交叉重建学习 (Cross Reconstruction Learning)

    • 创新点:没有直接设计一个“融合得好”的损失,而是利用重建作为一种无监督的约束。通过让融合特征能够重建出另一种模态的原始图像,模型被迫学习到两种模态的内在关联和各自的独有特征。

    • 机制:这有效地解决了“域差异”问题。当融合特征能够同时还原红外和可见光图像时,意味着这些融合特征包含了两种模态的域自适应表示,从而实现了它们在潜在空间的对齐。这避免了传统融合方法中对特定模态特征的过度依赖或丢失。

    • 优势:这种无监督学习范式减少了对人工设计损失的依赖,使得融合过程更加数据驱动和自适应。

  • 动态交互式融合策略 (Dynamic Interactive Fusion Strategy)

    • 创新点:针对“语义不匹配”问题,引入目标语义特征来指导融合,这是一个非常重要的方向。传统的融合方法往往只关注图像本身,而忽略了图像内容的语义。

    • 机制:通过构建融合特征和语义特征之间的关联矩阵,可以识别出对高层任务更重要的特征。

    • 优势增强强关联特征并抑制弱关联特征的机制,确保了融合过程更有针对性,避免了无关或有害信息的引入,从而直接服务于高层任务的性能提升,例如文中所提及的分割精度。这体现了一种从“感知”到“认知”的融合思想。


二.Intro

.        可见光图像通过反射光信息获取,包含丰富的边缘和纹理细节,但它们对光照条件和恶劣天气敏感。红外图像通过热辐射信息捕获,能有效突出夜间和烟雾条件下的目标,但缺乏足够的细节。红外与可见光图像融合 (IVIF) 旨在整合它们的互补信息,生成具有强大感知能力的新图像,从而有益于后续的高层视觉任务,例如语义分割 [4], [5]、目标检测 [6] 和目标跟踪 [7]。

现有 IVIF 方法 [8], [9], [10], [11], [12] 可分为四类:

  1. 基于编解码器的方法 (例如 YDTR [13], U2Fusion [14], PIAFusion [15], CDDFuse [16]):这些方法设计特定模态的编码器从源图像中提取信息。然后,通过融合模块(例如多尺度特征融合层或注意力机制)生成融合特征表示。最后,使用解码器重建融合图像。

  2. 基于对抗学习的方法 (例如 FusionGAN [17], DDcGAN [18], TGFuse [19]):这些方法设计生成器将条件向量映射到融合图像空间,判别器则约束融合图像保留热辐射信息和纹理信息。

  3. 基于联合多任务的方法 (例如 Tardal [1], MetaFusion [20], SegMif [21]):这些方法利用高层任务提供目标语义特征,从而促使融合特征获取目标轮廓信息。

  4. 基于自编码器的方法 (例如 DIDFuse [22], NestFuse [23]):这些方法训练一个自编码器,通过重建图像来获得提取图像特征的能力。然后,设计人工融合规则(例如 L1 范数、逐元素相加和逐元素最大选择)来融合互补特征。例如,NestFuse [23] 采用空间/通道注意力融合策略手动融合特征。

        尽管基于自编码器的方法没有明确设计融合损失,但其人工设计的融合规则无法自适应地融合两种模态的重要信息。相比之下,我们提出将融合特征解耦为两种模态特征,然后将其逆向映射回源图像,这迫使融合特征自适应地包含所有源图像信息。

        此外,由于 IVIF 没有地面真实数据,前三类方法构建了各种人工设计的融合损失函数用于特征提取、特征融合和图像重建。如图 1(a) 所示,像素强度损失(例如 L1 [1], [15]、L2 [13], [14], [16], [21] 等)约束红外和可见光编码器提取热辐射和纹理特征

结构损失(例如 SSIM [1], [13], [14], [16], [21]、SF [13] 等)确保特征融合模块包含结构和边缘信息。它们都帮助融合图像解码器生成融合图像。更多损失函数如图 2(左)所示。

        然而,构建精密的损失函数可能无法有效监督 IVIF 框架保留源图像的所有有用信息。特别地,IVIF 面临两个挑战:红外和可见光特征之间的域差异以及不同层级任务之间的语义不匹配,这可能导致关键信息丢失。

        一方面,基于无监督的方法 [14], [24] 和基于自监督的方法 [25], [26] 使用源图像来监督红外编码器和可见光编码器,这为提取域对齐特征带来了困难。另一方面,单任务融合方法采用特征融合模块(例如注意力融合 [23], [27]、特征空间变换 [17], [18] 等)实现跨模态特征融合,但融合特征缺乏目标语义信息。此外,多任务融合方法设计了不同的嵌入方式(例如分层交互 [1]、双层公式 [2]、渐进循环注意力 [3] 等)将目标语义信息嵌入到融合网络中,但两个不同层级任务之间的特征图存在语义不匹配问题。

        此外,人工设计的损失(例如内容损失 [25], [28]、结构损失 [29]、对抗学习损失 [18], [30] 和联合多任务损失 [20], [21])可能导致融合图像中出现主观偏好

        基于上述分析,由于 IVIF 缺乏地面真实数据,研究人员凭经验设计了人工融合损失,迫使融合图像获得某些特征(例如亮度、对比度等),因此这些方法无法全面保留源图像的所有关键信息。

        因此,我们提出了一种基于交叉重建学习的红外与可见光图像融合方法 (CRL),不使用任何人工设计的融合损失函数,我们将其命名为 FreeFusion,如图 1(b) 所示。

        FreeFusion 不受任何预定义融合规则的约束,这使得它能够灵活地融合源图像的所有关键特征。具体来说,CRL 通过学习逆向映射知识来表示融合特征,其中红外图像用作输入并重建可见光图像 (CRi→v),反之亦然 (CRv→i)。如果在交叉重建过程中,融合特征未能包含两种模态的关键特征,它们将无法重建另一幅源图像。因此,在不使用任何融合损失的情况下,融合模型可以自适应地融合两种模态的互补特征。同时,红外和可见光特征需要在同一域空间中保持一致性,从而实现跨模态特征域对齐。

        由于融合和分割是两个不同层级的任务,融合特征无法自然地匹配目标语义特征。因此,我们引入了动态交互式融合 (DIFj, j=1,2,3) 来实现语义兼容性,并增强不同任务特征之间的细粒度交互。我们在融合特征和目标语义特征之间建立了一个关联矩阵来克服语义不匹配,然后增强强关联特征并抑制弱关联特征以提高交互能力。

        在训练阶段,我们共享 CRi→v、CRv→i、SRv→v(可见光图像到可见光图像的自重建)和 SRi→i(红外图像到红外图像的自重建)的解码器参数,这提高了解码器重建融合图像的鲁棒性。

        在结构上,一个特征融合模块 \Phi_{FFM }生成融合特征,然后一个特征变换模块 \Phi_{FTM } 将它们转换为目标语义特征。不同层级任务之间的特征图通过\Phi_{CTIM }(CTIM 表示跨任务交互模块)基于混合关联矩阵嵌入在一起,从而实现与像素级融合信息兼容的目标语义信息。接下来,设计了一个任务查询模块\Phi_{TQM} 来构建基于查询的矩阵乘法,建立特征图之间的依赖关系,从而细化空间细粒度信息。然后,一个特征解耦模块\Phi_{FDM }将融合特征解耦为另一种模态的特征。最后,模态特征和解耦模态特征被输入到自重建解码器 \Phi_{srD }和交叉重建解码器 \Phi_{crD } 以重建源图像和另一种模态图像。

        在推理阶段,我们通过将融合特征直接输入解码器来生成融合图像。     

如图 2(右)所示,与次优方法相比,我们的 FreeFusion 在Potsdam数据集上,EN、SD、SF、AG、SCD 和 VIF 分别提高了 0.8%、2.78%、2.27%、4.01%、0.98% 和 2.35%。

总而言之,我们的贡献如下:

  • 我们提出了一种交叉重建学习方法,消除了红外与可见光图像融合中对人工设计融合损失的依赖。源图像的互补信息融合得更高效、更自适应,促进了融合和下游任务。
  • 构建了 CRL,它将融合特征解耦以重建另一种模态的源图像,这迫使红外和可见光特征在同一域空间中保持一致
  • 通过在融合特征和目标语义特征之间建立关联矩阵,设计了 DIFj,并通过增强强关联特征来提高它们的交互能力

三.Related Work

3.1 无监督融合方法

        无监督融合方法侧重于构建手工设计的融合损失函数,以使融合图像与源图像相似。例如,Zhao 等人 [16] 提出了一种相关驱动的特征分解融合方法,并设计了一种相关驱动损失来保留更多的模态共享和模态特定信息。Tang 等人 [15] 设计了一种渐进式图像融合网络,通过构建光照感知损失来自适应地整合有意义的信息。Zhao 等人 [25] 探索了一种交互式特征嵌入方法,该方法采用结构相似性损失来保留源图像的重要信息。Ma 等人 [18] 构建了双判别器条件生成对抗网络,其中设计了内容损失来约束融合图像和源图像之间的像素强度和梯度变化。Rao 等人 [19] 采用轻量级 Transformer 模块和对抗学习算法构建了基于方差的结构相似性损失来约束融合图像。Yao 等人 [31] 提出了一种彩色图像融合框架,其中构建了基于高斯模糊核的颜色损失,以在低光照条件下保留可见光图像的颜色信息。

然而,这些融合方法构建了手工设计的融合损失函数,这可能无法保留源图像的所有有用信息。相比之下,我们提出了交叉重建学习,它不使用任何手工设计的融合损失函数。由于融合结果不受任何特定先验知识假设的约束,融合模型可以自由融合更全面的信息。

3.2 自监督融合方法

        自监督融合方法旨在训练编解码器模型以进行特征提取和图像重建,并设计特定的融合策略来保留源图像的特定特征。例如,Li 等人 [23] 开发了一种巢式连接方法,该方法利用多尺度深度特征融合策略来保留更多显著特征。Zhao 等人 [22] 探索了深度图像分解策略,其中设计了损失函数,使源图像的背景/细节特征图相似/不相似。Li 等人 [29] 基于残差架构设计了一种残差融合网络,并提出了细节保留损失特征增强损失来迫使网络融合更多细节特征。Liang 等人 [32] 通过自监督表示学习设计了一种图像分解模型,该模型无需任何成对数据或复杂的损失函数即可实现图像融合。Tang 等人 [33] 利用场景光照解耦网络重建两个源图像,同时保留源图像的有用信息。Xu 等人 [34] 通过跨模态重建将源图像分解为场景特征和属性向量。然后,通过手工设计的平均和相加策略分别融合两种模态的场景特征和属性向量。

        然而,手工设计的融合策略缺乏自适应性,导致关键特征的丢失。相比之下,我们提出了交叉重建学习,将融合特征解耦为两种模态特征,并交叉重建源图像。因此,交叉重建过程迫使融合特征自适应地包含源图像的所有关键信息。

        上述融合方法使用源图像作为地面真实进行端到端训练,但难以充分解决源图像之间的域差异,导致一些重要的细节信息丢失。相比之下,我们的交叉重建学习将融合特征解耦以重建另一种模态的源图像。在解耦和重建过程中,可见光和红外特征被迫在同一域空间中保持一致性,从而实现跨模态特征域对齐

3.3 联合多任务融合方法

        最近,联合多任务融合方法尝试利用来自高层视觉任务的语义信息来增强融合网络的性能。它们分为两类:级联学习方法 [1], [35], [36] 和交互式学习方法 [2], [20], [21], [37]。

        级联学习方法通过使用高层任务作为约束来训练融合网络,这促使融合网络生成有利于下游任务的融合结果。例如,Sun 等人 [35] 通过目标检测网络获取目标相关信息,然后将目标位置作为先验信息来指导融合网络。Liu 等人 [1] 结合双重对抗学习和检测网络,并提出了两层优化公式来加强融合和分割任务之间的联系。Tang 等人 [36] 利用语义损失引导高层语义信息流回图像融合模块,从而缓解融合和分割任务之间的差距。Wu 等人 [38] 使用暖启动融合损失获得初始融合结果,然后直接引入分割损失进行语义驱动训练。Yao 等人 [39] 实现了基于强度和梯度的融合损失来训练拉普拉斯金字塔融合网络。然后,将融合结果附加到分割网络,该网络通过交叉熵损失进行训练。因此,这两种方法都使用了语义级损失和融合级损失。相比之下,我们的方法不使用任何融合损失,即我们通过交叉重建源图像来解耦融合特征,这确保了模型可以自由融合两种模态的互补特征。

        交互式学习方法设计了不同层级特征图之间的分层交互,从而弥合融合和高层任务之间的差距。例如,Zhao 等人 [20] 通过元特征嵌入解决语义特征和融合特征之间的差异,用于目标检测。Wang 等人 [37] 探索了融合和显著目标检测任务之间的协同关系,并设计了交互式增强多任务范式。Liu 等人 [21] 提出了一种多交互特征学习架构,该架构利用双任务相关性来提高双任务的性能。此外,一些研究结合低层视觉任务来提高融合任务的性能。例如,Jie 等人 [40] 结合超分辨率任务实现随机迭代去噪过程,从而生成高分辨率融合结果。Li 等人 [41] 首次尝试在单阶段框架中解决图像配准和融合问题,这促进了两个任务的相互增强。Li 等人 [42] 利用配准网络获取对齐知识来监督不匹配图像融合,使融合算法摆脱严格的配准要求。Li 等人 [43] 联合训练图像融合和恢复任务,可以有效融合和恢复退化的多模态信息。

        现有方法将来自高层视觉任务的目标语义信息嵌入到融合任务中,但两个不同层级任务阻碍了这一过程。因此,我们提出了动态交互式融合来实现语义兼容性并细化每个任务的特征表示。特别是,我们利用了关联矩阵查询级交互,这使得目标语义信息能够自然地与融合任务兼容。


四.方法

        由于没有地面真实数据可用于训练融合模型,现有方法构建了复杂的融合损失,这可能无法保留源图像的所有关键特征。如图 3 所示,FreeFusion 旨在设计一个不使用任何手工设计融合损失的 CRL(交叉重建学习)框架,同时强制网络自适应地融合源图像的互补信息。特别是,我们设计了 DIFj(动态交互式融合)以实现融合任务和分割任务之间自然的语义兼容性。详细介绍如下。

4.1 交叉重建学习

        在不使用任何手工设计融合损失来训练融合模型的情况下,这带来了如何强制网络自由提取和融合所有关键特征并随后重建融合图像的挑战。我们的方法通过实现 CRi→v 和 CRv→i 来学习逆向映射知识,这迫使融合特征包含两种模态的关键特征。

通过 SRi→i 和 SRv→v 进行特征提取

        我们通过解耦融合特征来重构相应的源图像,从而从源图像中提取关键特征。首先,给定输入红外图像 Iir​ 和可见光图像 Ivis​,红外和可见光编码器分别表示为 Φir,jE​ 和 Φvis,jE​,

其中 j=1,2,3 是层数。在每一层中,两个模态编码器通过 Φir,jE​ 和 Φvis,jE​ 执行特征提取,生成红外特征 Fir,j​ 和可见光特征 Fvis,j​。

        然后,来自每一层的红外和可见光特征被送入自重建解码器 Φsr_D​,该解码器重建红外图像 Isr_ir​​ 和可见光图像 Isr_vis​​。

        红外图像重建损失 Lsr_ir​​ 和可见光图像重建损失 Lsr_vis​​ 确保在自重建过程中不会丢失源图像的学习到的综合特征,这可以表示为:

L^{sr}_{ir} = \|I_{ir} - I^{sr}_{ir}\|_1 + 1 - S (I_{ir}, I^{sr}_{ir})

L^{sr}_{vis} = \|I_{vis} - I^{sr}_{vis}\|_1 + 1 - S (I_{vis}, I^{sr}_{vis})

其中 S(⋅,⋅) 表示结构相似性指数。

通过 CRi→v 和 CRv→i 进行特征融合

        如果融合特征能够被解耦并生成跨模态图像,那么它将被迫自由融合两种模态的重要特征信息。同时,红外和可见光特征必须在同一域空间中进行域对齐。如图 3 所示,来自 DIFj(详见 3.2 节)的融合相关特征 Fu,j′′​ 和红外特征 Fir,j​ 被送入 Φvis_FDM​,jF​ 以生成解耦的可见光特征 Fvis,j′​。

        类似地,解耦的红外特征 Fir,j′​ 可以通过 Φir_FDM​,jF​ 获得。然后,来自每一层的解耦红外和可见光特征被输入到交叉重建解码器 Φcr_D​,

        该解码器分别生成交叉重建的红外图像 Icr_ir​​ 和交叉重建的可见光图像 Icr_vis​​。交叉重建损失 Lcr_ir​​ 和 Lcr_vis​​ 主要确保融合特征中包含的两种模态信息不会丢失。它们可以表示为:

L^{cr}_{ir} = \|I_{ir} - I^{cr}_{ir}\|_1 + 1 - S (I_{ir}, I^{cr}_{ir})

L^{cr}_{vis} = \|I_{vis} - I^{cr}_{vis}\|_1 + 1 - S (I_{vis}, I^{cr}_{vis})

        最后,SRi→i、SRv→v、CRi→v 和 CRv→i 训练四个共享参数的解码器,从而使解码器获得图像重建的泛化能力。因此,在推理阶段,融合特征直接输入到解码器,即可生成融合图像。

4.2 动态交互式融合

        融合特征可以帮助分割任务提供像素级细节信息,而目标语义特征可以指导融合任务包含丰富的语义信息。但由于任务层级的差异,融合任务和分割任务存在语义不匹配。因此,如图 4 所示,我们设计了 DIFj 以实现两个不同层级任务之间的语义兼容性。在本小节中,我们强调两个阶段:跨任务交互和任务查询,将详细介绍如下。

        在跨任务交互阶段,我们引入 ΦCTIM,j​,它在任务内部和任务之间建立空间细粒度交互,以强化互利特征表示,如图 5 所示。我们利用关联矩阵对输入特征图的每个像素位置信息进行加权,从而增强融合特征和语义特征之间的潜在连接。        我们可以自然地推断出四块关联矩阵:任务内融合任务关联任务内分割任务关联以及两个任务之间的任务间关联。具体来说,在每一层中,我们将 Fvis,j​ 和 Fir,j​ 输入 ΦFFM,j​ 以生成融合特征 Fu,j​,然后通过 ΦFTM,j​ 将融合特征转换为目标语义特征 Fs,j​。接下来,将 Fu,j​ 和 Fs,j​ 展平为融合向量 Vu,j​ 和目标语义向量 Vs,j​。我们将 Vu,j​ 和 Vs,j​ 拼接以获得混合向量 Vmix,j​。Vmix,j​ 乘以可学习的权重矩阵 WQ​、WK​ 和 WV​ 以分别获得 Q、K 和 V,这可以表示为: {Q,K,V}={Vmix,j​WQ​,Vmix,j​WK​,Vmix,j​WV​}随后,使用 Q 和 K 之间的缩放点积计算关联矩阵,然后使用 softmax 函数将其归一化到 [0,1.0] 范围。之后,将关联矩阵乘以 V 以增强任务内部和任务之间混合向量的表示。为了捕获 Vmix,j​ 中的不同上下文信息,并行计算多个注意力头。这种机制促进了融合和分割任务的全局交互和融合。显然,我们通过增加强语义相关位置的权重值和降低弱语义相关位置的权重值来实现融合特征和语义特征之间的语义兼容性。值向量通过关联矩阵加权,以增强任务内部自身信息和任务间互补信息。注意力机制计算如下:

        在任务查询阶段,我们引入了两个任务查询模块(即 ΦuTQM​,jQ​ 和 ΦsTQM​,jQ​),它们构建空间细粒度交互以生成更精炼的任务特定特征表示。为了简化表达,我们将所有下标统一表示为 x={u,s},其中 Fu,j​ 和 Fs,j​ 被定义为任务查询特征 Fx,j​,而 Fu,j′​ 和 Fs,j′​ 被定义为任务交互特征 Fx,j′​。具体来说,Fx,j​ 和 Fx,j′​ 被转换为任务查询向量 Vx,j​ 和任务交互向量 Vx,j′​。        如图 6 所示,与原始自注意力机制不同,我们将 Vx,j​ 作为任务查询,将 Vx,j′​ 作为键和值。因此,Vx,j​ 和学习到的 Vx,j′​ 通过矩阵乘法构建长程交互,从而产生细粒度的任务特定特征表示。Vx,j​ 和 Vx,j′​ 通过三个可学习矩阵 WQ^​​、WK^​ 和 WV^​ 映射到 Q^​x​,K^x​ 和 V^x​,这可以表示为: {Q^​x​,K^x​,V^x​}={Vx,j​WQ^​​,Vx,j′​WK^​,Vx,j′​WV^​} 这里,K^x​ 和 V^x​ 执行缩放点积计算,然后通过 softmax 操作获得注意力分数。接下来,将注意力分数应用于 Vx,j​ 以生成精炼的任务相关向量 Vx,j′′​。最后,Vx,j′′​ 通过 reshape 操作生成任务相关特征 Fx,j′′​,其中 Fx,j′′​ 分别表示融合相关特征 Fu,j′′​ 和语义相关特征 Fs,j′′​。

4.3 架构

        如图 3 所示,我们的方法由 CRL 框架组成,其中包括 Φir,jE​、Φvis,jE​、ΦvisFDM​,jF​、ΦirFDM​,jF​、ΦsrD​、ΦcrD​ 和 ΨH​。j=1,2,3 表示特征层级索引。具体来说,Φir,jE​ 包含三个编码器块,每个编码器块包含一个 3×3 卷积层和一个残差层。残差层由两个 3×3 卷积层和跳跃连接组成。Φvis,jE​ 具有相同的结构。ΦsrD​ 包含三个解码器块。每个解码器块由一个 3×3 卷积层、一个残差块和一个上采样组成。上采样执行双线性插值和一个 1×1 卷积层。ΨH​ 分为三个块。前两个块与解码器块具有相同的结构。最后一个块包含一个 3×3 卷积层、一个残差块和一个分类层。分类层是一个 1×1 卷积层。此外,我们在编解码器之间添加了跳跃连接,以充分融合多尺度特征。DIFj 和 ΨH​ 之间也执行了跳跃连接。

        ΦFDM,j​ 用于解耦融合特征以生成另外两个模态特征。ΦFDM,j​ 包括 Φvis_FDM​,jF​ 和 Φir_FDM​,jF​。为了生成解耦的可见光特征 Fvis,j′​,我们将融合相关特征 Fu,j′′​ 和红外特征 Fir,j​ 输入 Φvis_FDM​,jF​。首先,Fir,j​ 被送入一个非线性变换,该变换由一个 1×1 卷积层和 PReLU 以及一个 1×1 卷积层和 Sigmoid 组成,以生成增强系数。然后,Fir,j​ 和增强系数相乘,得到强调自身显著部分的红外特征。最后,Fu,j′′​ 和增强的红外特征执行逐元素相减以生成 Fvis,j′​。整个过程可以表示为:

其中 σ 和 δ 分别表示 Sigmoid 和 PReLU 激活函数。⊗ 表示逐元素乘法。此外,Φir_FDM​,jF​ 生成解耦的红外特征 Fir,j′​,其操作相同。

        DIFj 包括 ΦFFM,j​、ΦFTM,j​、ΦCTIM,j​ 和 ΦTQM,j​。ΦCTIM,j​ 和 ΦTQM,j​ 的详细结构在 3.2 节中提供。ΦFFM,j​ 融合红外和可见光特征以生成融合特征。我们首先拼接模态特征 Fir,j​、Fvis,j​,然后通过执行三个 3×3 卷积层获得融合特征。接下来,我们通过执行一个 1×1 卷积层从红外和可见光图像中获得权重图 W1​,W2​。权重图 W1​ 的公式为:

        其中 Ckn​ 表示“k×k 卷积核 + ReLU”层的数量为 n,∥ 表示特征拼接。最后,通过对 Fir,j​ 和 Fvis,j​ 进行通道乘法生成增强的模态特征。W2​ 以相同的方式获得。然后,我们通过执行一次 3×3 卷积层,拼接这两个特征和融合特征 Fu,j​。特征融合过程表示为:

ΦFTM,j​ 将融合特征转换为语义特征。我们对融合特征执行一个 3×3 卷积层和一个 1×1 卷积层。然后,将其与融合特征拼接以生成语义特征,这可以表示为:

4.4 模型训练与推理

训练

        我们联合训练 SRi→i、SRv→v、CRi→v、CRv→i 和分割任务。

        因此,总损失函数可以表示为: Ltotal​=Lsrir​​+Lsrvis​​+Lcrir​​+Lcrvis​​+αLs​其中 α 是平衡融合任务和分割任务的超参数。

Ls​=Lce​+Ldice​ 表示分割损失,它包含交叉熵损失 Lce​ 和 Dice 损失 Ldice​。

如果我们考虑像素的分类概率,每个像素都保证被准确分类。Lce​ 提供类别预测的准确性,其表达式如下:

        其中 C 和 Y 分别表示类别数和像素数。gy,c​ 表示第 y 个像素属于类别 c 的概率,py,c​ 是相应的语义标签。Ldice​ 通过优化整体区域相似性来确保小型或不平衡类别得到适当处理,其表达式如下:

​ 其中 ϵ 设置为 1×10−7 以确保分母不为零。

推理

        整个框架依赖于源图像的信息,这确保了 Φcr_D​ 和 Φsr_D​ 包含源图像的综合关键特征。由于 Φcr_D​ 和 Φsr_D​ 共享参数,我们统一表示为解码器 ΦD​。因此,融合结果可以在推理阶段由 ΦD​ 生成,这可以表示为:

        其中 Fu,j′′​,j=1,2,3 表示由 Φu_TQM​,jQ​ 生成的融合相关特征,If​ 表示融合结果。

        


交叉重建学习 (CRL) 的设计

CRL 是本文最关键的创新之一,它解决了无监督融合的根本难题。

  • “逆向映射知识”的学习:这是一种非常深刻的理解。不是直接训练模型去“融合好”,而是训练它去“重建好”。如果融合特征能够重建出原始的红外和可见光图像,尤其是跨模态重建(CRi→v 和 CRv→i),这意味着这些融合特征已经内在地捕捉到了两种模态的本质信息和相互转换的知识。

  • 自重建 (SRi→i, SRv→v) 的作用:明确了自重建损失。这些损失保证了在特征提取阶段,源图像的固有特征(如红外图像的热辐射信息和可见光图像的纹理细节)不会丢失。这为后续的融合和跨模态重建提供了高质量的原始特征基础。S(·, ·)(结构相似性)的引入,使得损失不仅关注像素强度,还关注图像结构。

  • 跨重建 (CRi→v, CRv→i) 的作用:它们强制融合后的特征 Fu,j′′​(来自DIFj模块,已经包含了语义信息)能够被解耦并重建出另一种模态的源图像。这不仅确保了融合特征中包含两种模态的互补信息,更重要的是,它强制两种模态的特征在潜在空间中实现域对齐("infrared and visible features have to be domain alignment in a same domain space")。这是一个非常重要的声明,也是解决“域差异”问题的关键机制。

  • 共享解码器参数:这是一个工程上和理论上都明智的选择。它提高了模型的泛化能力和鲁棒性,使解码器能从多种形式的特征(自重建和交叉重建)中准确地生成图像。

动态交互式融合 (DIF) 的结构

DIF 旨在解决融合任务与高层语义任务之间的“语义不匹配”问题。

  • 跨任务交互阶段 (ΦCTIM,j​)
    • 关联矩阵的核心作用:这是 DIF 的灵魂。它通过注意力机制,学习融合特征 (Fu,j​) 和目标语义特征 (Fs,j​) 之间的相互关联。通过将两者拼接成 Vmix,j​ 并生成 Q, K, V ,然后计算缩放点积注意力 ,网络能够识别哪些融合特征区域与哪些语义信息强相关。

    • “增强强关联,抑制弱关联”这是注意力机制的直接效果。通过加权,模型能够有选择性地增强对高层任务有益的像素级细节,并抑制无关信息。这确保了融合结果不仅视觉效果好,而且对高层任务(如分割)有益。

    • 多头注意力:引入多头注意力机制 (multiple attention heads are computed in parallel) 进一步增强了模型捕获不同上下文信息和全局交互的能力,提升了注意力机制的表达力。

  • 任务查询阶段 (ΦTQM,j​)
    • “任务查询”的创新:这不同于传统的自注意力机制。它将原始的任务特征 (Fx,j​ 转换为 Vx,j​) 作为查询 (Query),将经过跨任务交互后的特征 (Fx,j′​ 转换为 Vx,j′​) 作为键 (Key) 和值 (Value)。这种设计允许原始特征去“查询”经过交互精炼后的特征,从而“提取”出与自身任务更相关的、更细粒度的信息。

    • 长程交互与细粒度表示:通过这种查询机制,任务查询模块能够构建长程依赖关系,进一步细化任务特定特征表示,确保最终输出的 Fu,j′′​ 和 Fs,j′′​ 既包含丰富的细节,又具备强大的语义指导能力。


五.实验

数据集

        我们在五个具有代表性的数据集上进行实验:Potsdam [44]、WHU [45]、MFNet [46]、M3FD [1] 和 LLVIP [47]。Potsdam 数据集提供了关于城市环境的详细信息,包括 6 种对象类别:不透水表面、建筑物、低矮植被、树木、汽车和杂物。它总共有 38 对图像,其中 30 对用于训练,7 对用于测试。WHU 数据集描述了土地场景,被标记为 7 种不同类别,包括农田、城市、乡村、水域、森林、道路和其他。它包括 100 对图像,其中 80 对用于训练,20 对用于测试。MFNet 数据集展示了白天和夜间的城市场景,包含 9 种不同的对象类别,包括背景、汽车、行人、自行车、曲线、停车标志、护栏、交通锥和减速带。它包含 1177 对图像,其中 784 对用于训练,393 对用于测试。此外,三个数据集用于评估语义分割任务的性能。M3FD 数据集涵盖了不同光照、季节和天气场景,其中标注了六种对象类别,即行人、汽车、公交车、摩托车、卡车和路灯。LLVIP 数据集提供了夜间和白天道路行人场景,其中标记了行人类别。M3FD 包含 1260 对图像,LLVIP 包含 3463 对图像,用于测试以评估融合性能。此外,M3FD 和 LLVIP 分别被划分为训练集(2940 和 12025 张图像)和测试集(1260 和 3463 张图像),以分别评估目标检测任务的性能。

实现        

        我们的 FreeFusion 是使用 PyTorch 框架在 NVIDIA GeForce RTX 4090 GPU 上实现的。学习率初始化为 2×10−5,并逐渐衰减到 1×10−6。批量大小设置为 4。我们使用 Adam 优化器,一阶动量为 0.9,二阶动量为 0.99,训练 FreeFusion 50 个 epoch。所有图像都被裁剪为 320×320 大小。

指标

        我们使用六个指标来定量衡量我们的方法:熵 (EN) [48]、标准差 (SD) [49]、空间频率 (SF) [50]、平均梯度 (AG) [51]、结构内容差异 (SCD) [49] 和视觉保真度 (VIF) [52]。

  • 更大的 EN 意味着融合图像包含更丰富的细节和信息。
  • 更高的 SD 意味着图像具有更高的对比度和亮度变化。
  • 更大的 SF 表示融合图像中纹理表示更丰富。
  • 更高的 AG 表示融合结果中包含更锐利的边缘。
  • 更大的 SCD 表示融合图像更好地保留了源图像的结构信息。
  • 更高的 VIF 表示融合图像在视觉上对人眼更具感知度。 此外,我们使用 mDice 和 mAcc 指标来评估分割任务的性能。
  • 更高的 mDice 意味着模型在所有类别上具有更好的分割性能。
  • 更高的 mAcc 表示模型更准确地对像素进行分类。 我们使用 mAP50→95 来评估目标检测任务的性能。
  • mAP50→95 表示在不同 IoU 阈值(0.5 到 0.95,间隔 0.05)下 AP 的平均值。更高的 mAP50→95 表示对象定位能力更好。

1. 实验设置

  • 多数据集验证:在 Potsdam, WHU, MFNet, M3FD, LLVIP 这五个数据集上进行实验,涵盖了城市、乡村、昼夜、不同光照等多种场景,且部分数据集专门用于高层任务评估。这表明实验的全面性和结果的泛化性得到了充分考量。

  • 评价指标的丰富性与针对性
    • 低层融合指标 (EN, SD, SF, AG, SCD, VIF):这些是图像融合领域常用的客观评价指标,从信息量、对比度、纹理、边缘、结构和视觉感知等多个维度衡量融合质量,非常全面。对每个指标的解释清晰易懂。

    • 高层任务指标 (mDice, mAcc, mAP50→95):引入语义分割和目标检测的指标是本文的一大亮点。这直接验证了其“解决语义不匹配”和“服务高层任务”的创新点。mDice 和 mAcc 衡量分割精度,mAP50→95 衡量检测精度,这些都是对应领域最权威的指标。

2. 消融研究

  • ΦCTIM​ (跨任务交互模块) 分析

    • 对照组设置:对比了“无 ΦCTIM​”(直接反向传播)、“Concatnate”(简单拼接)和“Summary”(简单聚合)等变体,非常合理地模拟了没有显式交互的情况。

    • 结果分析:定量数据(EN/SD/SF/AG/SCD/VIF 显著提升,mAcc/mDice 提升)和定性结果(图 7 汽车轮廓分割不精确)有力地证明了 ΦCTIM​ 在解决语义不匹配方面的关键作用。可视化特征图(图 8)是极好的补充,直观地展示了 ΦCTIM​ 如何帮助融合特征捕获更多对象语义信息(如屋顶)。这直接验证了其设计动机。

    • 结论:确认了简单聚合无法处理语义不匹配,而 ΦCTIM​ 通过显式交互实现了语义兼容,提升了融合质量和高层任务性能。

  • ΦTQM​ (任务查询模块) 有效性

    • 对照组设置:对比了“w/ ΦuTQM​Q​”(融合任务中带 ΦTQM​)、“w/ ΦsTQM​Q​”(分割任务中带 ΦTQM​)、“w/o ΦTQM​”(都不带)和“w/ ΦTQM​”(都带),这种组合设计非常细致,能清晰区分 ΦTQM​ 在不同任务流中的作用。

    • 结果分析:数据显示,完整的 ΦTQM​(即两个任务都包含)表现最佳。同时,即使只在融合任务中引入 ΦTQM​(w/ ΦuTQM​Q​)也能显著提升融合性能。这证明 ΦTQM​ 确实能精炼任务内特征的细粒度表示,从而提升融合结果。

  • ΦFDM​ (特征解耦模块) 影响

    • 对照组设置:对比了“w/o ΦFDM​”(直接用融合特征重建源图像,不解耦)和“w/ ΦFDM​”(解耦后交叉重建)。这直接验证了“交叉重建学习”中“解耦”这一步骤的重要性。

    • 结果分析:巨大的性能提升(EN, SD, SF, AG, SCD, VIF 提升比例惊人,尤其是 SCD 达到 385.2%)以及定性图 9(屋顶纹理的突出),有力地证明了 ΦFDM​ 在保留源图像关键信息方面的决定性作用。图 10 对分割结果的分析进一步佐证了其在语义层面的优势。

    • 结论:解耦并交叉重建是确保融合特征全面保留两种模态关键信息的核心。

  • α 参数分析

    • 对照组设置:测试了不同 α 值对融合性能的影响。

    • 结果分析:发现 α=1 是最佳平衡点,过小会导致语义信息利用不足,过大会导致像素级细节丢失。这在多任务学习中是典型的权衡问题,作者通过实验找到了最优解。

3. 与最先进方法的比较

  • 定性比较:通过图 11、12、13 展示了 FreeFusion 在保持颜色、纹理、边缘、高对比度热辐射信息以及夜间目标细节方面的优势,并逐一分析了其他 SOTA 方法的不足(如颜色丢失、纹理模糊、热信息不足、对象模糊等)。可视化结果直观地支持了量化结果。

  • 定量比较:在多个数据集上,FreeFusion 在大多数指标上都取得了最佳或次优性能,尤其是在 EN、SD、SF、AG、SCD 和 VIF 等融合质量指标上显示出显著提升。这些数据提供了强大的量化证据。

  • 效率考量:表 8 报告了推理时间(0.0049s)和 FLOPs(99.08G),并详细分解了各模块的贡献。虽然 FLOPs 相对较高,但推理时间非常快,表明模型在实际部署中仍具潜力。能耗和效率是重要考量,作者提供了这些数据是加分项。

4. 泛化实验与高层任务性能

  • 泛化能力验证:在 WHU 上训练的模型直接在 M3FD 和 LLVIP 上进行测试,这种跨数据集的泛化实验是极其重要的。结果显示,即使在未见过的数据集上,FreeFusion 也能保持出色的融合性能,再次证明了其“不依赖手工损失”带来的强泛化性。

  • 高层任务评估 (语义分割和目标检测)这是本文最大的亮点和创新点。
    • 语义分割:通过在 Potsdam, WHU, MFNet 上使用 SegFormer 基线进行评估。定性图 15 清晰展示了 FreeFusion 融合图像如何帮助分割网络更准确地识别“低矮植被”、“不透水表面”、“水域”、“农田”甚至“汽车完整结构”等类别。定量表 11 显示,FreeFusion 在 mDice 和 mAcc 上均有显著提升,证明了融合图像作为输入,对下游分割任务的积极影响。

    • 目标检测:在 M3FD 和 LLVIP 上使用 YOLOv5.1 模型进行评估。表 12 的 mAP50→95 结果显示 FreeFusion 取得了最佳性能,再次验证了其“生成检测友好型融合结果”的能力。

    • 核心结论:这些高层任务的评估直接且有力地证明了 FreeFusion 解决了“语义不匹配”问题,并能够生成对高层视觉任务有益的融合结果。这是许多传统融合方法无法有效做到的


六.结论

        FreeFusion 论文介绍了一种红外与可见光图像融合的创新方法,它彻底摒弃了传统手工设计的融合损失函数

FreeFusion 的核心在于其两大创新机制:

  • 交叉重建学习 (Cross-reconstruction learning, CRL): 这项技术旨在将融合后的特征解耦回各自原始模态的特征(例如,将融合特征分解为红外特征和可见光特征),然后用这些解耦后的特征重建原始的输入图像。通过这个过程,网络被强制:

    • 自适应地融合重要特征:模型会学习哪些红外和可见光特征对于成功重建原始图像至关重要,从而更智能地进行融合。

    • 实现模态域对齐:当模型被迫使用一种模态的特征来重建另一种模态的图像时,红外和可见光图像固有的差异性会在特征层面被隐式地拉近,进入一个共享且兼容的特征空间

  • 动态交互式融合 (Dynamic Interaction Fusion, DIF): 该模块专门解决多任务学习中常见的“语义不匹配”问题,特别是低层图像融合与高层图像分割任务之间的差异。DIF 通过以下方式应对挑战:

    • 设计特征关联矩阵:这个矩阵明确地映射并对齐了融合任务特征和分割任务特征之间的关系。

    • 实现相互引导:这种对齐使得两个任务能够相互促进。这意味着融合过程能从语义信息中获益,而生成的融合图像也更适用于像分割这样的下游任务。

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值