多模态融合【二十】——Equivariant Multi-Modality Image Fusion

多模态图像融合是一种将来自不同传感器或模态的信息相结合的技术，使融合后的图像能够保留各模态的互补特征，例如功能高光和纹理细节。然而，由于缺乏真实的融合数据，有效训练此类融合模型具有挑战性。为解决这一问题，我们提出了等变多模态图像融合（EMMA）范式，用于端到端的自监督学习。我们的方法基于自然成像响应对某些变换具有等变性的先验知识。因此，我们引入了一种新的训练范式，包括融合模块、伪感知模块和等变融合模块。这些组件使网络训练能够遵循自然感知-成像过程的原则，同时满足等变成像先验。大量实验证实，EMMA在红外-可见光和医学图像融合中取得了高质量的结果，同时促进了下游多模态分割和检测任务。代码可在 https://github.com/Zhaozixiang1228/MMIF-EMMA获取。

多模态图像融合（Multi-modality Image Fusion）旨在整合不同模态（如红外、可见光、医学成像等）的信息，以生成包含各模态优势特征的综合图像。这在计算机视觉和医学成像领域具有广泛应用，例如目标检测、分割等任务。然而，融合模型的训练面临两大难点：1）不同模态的特征异质性导致融合难度；2）缺乏真实的融合参考数据（ground truth），限制了监督学习的效果。

EMMA（Equivariant MultiModality imAge fusion）提出了一种创新的自监督学习范式，通过引入等变性先验（equivariance prior）解决上述问题。等变性是指自然成像系统对特定变换（如旋转、平移）的响应保持一致性。基于此，EMMA设计了一个包含以下核心组件的训练框架：

融合模块：负责整合多模态输入，生成融合图像，保留各模态的互补信息（如红外的功能高光和可见光的纹理细节）。
伪感知模块：模拟真实传感器成像过程，生成伪模态数据，弥补真实融合数据的不足，从而支持自监督学习。
等变融合模块：确保融合过程满足等变性约束，即融合图像对变换的响应与输入模态一致，增强模型的泛化能力和鲁棒性。

技术优势：

自监督学习：通过伪感知模块和等变性先验，EMMA无需依赖真实融合数据，降低了数据获取成本。
等变性约束：利用自然成像的先验知识，确保融合图像在变换下的物理一致性，提升融合质量。
多任务支持：高质量的融合图像不仅适用于直接的图像增强，还能显著提升下游任务（如多模态分割和检测）的性能。

二.Introduction

多模态图像融合是一种图像恢复方法，通过合成多个传感器和模态的信息，生成场景和物体的综合表示[29, 38, 51, 54]。它在图像配准[13, 36, 39]、场景信息增强或恢复[7, 20, 42, 43, 53]以及下游任务（如多传感器场景中的目标检测[1, 21]和语义分割[24, 33]）中应用广泛。典型任务包括红外-可见光图像融合（IVF）和医学图像融合（MIF）。IVF融合输入红外图像的热辐射信息和输入可见光图像的复杂纹理细节，生成融合图像，缓解可见光图像受光照变化影响及红外图像易受低分辨率和噪声影响的局限性[48, 56]。MIF的目标是通过整合多种成像技术，提供患者医疗状况异常的全面表示，支持诊断和治疗的智能决策系统[12]。我们假设潜在的真实融合图像信息丰富，但在实践中，只能通过非线性且难以建模的感知过程测量同一真实场景，从而获得不同模态的观测。因此，多模态图像融合问题可视为一个具有挑战性的非线性盲逆问题，可表述为以下负对数似然最小化问题：

$\min_f \{-\log p(f | i_1, i_2)\}$

$\propto \min_f \{-\log p(i_1, i_2 | f) - \log p(f)\}$

$\propto \min_f \{L(f, i_1, i_2) + R(f)\}$

其中， $i_1, i_2$ 和 f 分别表示两个输入源图像和输出融合图像。公式(1b)源于贝叶斯定理。在公式(1c)中，第一项是数据保真项，表示 $i_1, i_2$ 从 f 感知而来；第二项是先验项，表示 f 需满足特定的融合图像先验或经验特性。在深度学习时代，许多先进方法致力于更好地建模这一问题。然而，该任务仍存在若干未解决的难题。对于公式(1c)的第一项，单个传感器仅能捕捉特定模态特征，现实中不存在能同时感知所有模态信息的“超级”传感器。因此，缺乏明确的真实数据阻碍了深度学习监督学习范式在图像融合任务中的有效应用。基于生成模型的方法[21, 26]试图通过使源图像和融合图像具有相似分布来实现融合，但缺乏可解释性、可控性且训练困难。另一方面，基于手动设计的损失函数的方法[18, 38, 51]通常通过最小化 $\ell_1$ 或 $\ell_2$ 距离使融合图像接近源图像。然而，直接计算 $\|f - i_1\| + \|f - i_2\|$ 来确定 f 忽略了融合图像与源图像之间的潜在域差异，未能考虑 f 可能不与 $i_1$ 和 $i_2$ 位于同一特征流形上。同时，对于公式(1c)的第二项，研究者常假设融合图像具有特定结构，如低秩[17, 19]、稀疏性[6, 8]、多尺度分解[51, 54]等，并施加先验以限制解空间。然而，由于真实融合图像不可获取，这些先验通常依赖于对融合图像的推测性假设或自然图像先验的推导，过度依赖领域知识且对未知场景的适应性有限。

针对上述挑战，我们计划从两个方面解决。首先，由于分布对齐和手动设计的损失函数具有挑战性，我们提出从感知和成像过程入手，学习感知过程，即从融合图像逆映射回各模态图像。这种方法直观上比直接掌握融合过程更简单。通过将融合图像应用于不同感知函数，测量输入源图像与（伪）感知结果之间的损失，克服了缺乏真实融合图像的问题。此外，由于图像融合本质上是一个病态问题，仅优化上述感知损失可能无法得到最优融合图像。因此，我们引入了一个简单但有效的先验，基于成像系统的固有先验，不依赖融合图像的领域特定知识。这一非领域特定先验基于自然成像响应对平移、旋转和反射等变换的等变性理解。换句话说，变换后的融合图像在感知和重新融合后应与感知前结果一致。利用自然成像系统的等变性先验为融合网络的学习过程提供了更强的约束和指导。

总之，针对图像融合的常见学习范式，我们进行了以下改进：

$\|f - i_1\| + \|f - i_2\| + \text{fusion image prior}(f) \implies \|\hat{i}_1 - i_1\| + \|\hat{i}_2 - i_2\| + \text{equivariance prior}(F \circ A)$

其中，F 表示融合模型，A 表示感知模型， $\hat{i}_1 = A_1(f) ,\hat{i}_2 = A_2(f)$ 分别表示对应感知模型 $A_1$ 和 $A_2$ 确定的 $i_1$ 和 $i_2$ 的感知结果， $A_1$ 和 $A_2$ 共同组成感知模型 A。

基于此方法，我们设计了一个名为等变多模态图像融合（EMMA）的自监督学习范式。该框架包括融合模块、伪感知模块和等变融合模块。融合模块（U-Fuser）采用类U-Net[30]结构，结合Restormer[45]CNN块，用于建模全局和局部特征，有效聚合信息。伪感知模块基于U-Net[30]，是一个可学习的结构，将融合图像映射回源图像，模拟自然感知成像过程。最后，等变融合模块确保融合图像遵循等变成像先验。我们的贡献如下：

提出了一种名为EMMA的新型自监督学习范式，针对图像融合缺乏真实数据的问题，利用自然感知-成像过程和非领域特定的等变性先验。
通过伪感知模块和感知损失组件，改进了传统融合损失对融合图像与源输入域差异的不当处理，有效模拟感知成像过程。
EMMA提出的U-Fuser融合模块能有效建模多尺度长短程依赖，整合源信息。
我们的方法在红外-可见光图像融合和医学图像融合中表现出色，同时促进了下游多模态目标检测和语义分割任务。

多模态图像融合（Multi-modality Image Fusion）通过整合来自不同传感器或模态（如红外、可见光、医学成像）的异构信息，生成综合性图像表示，广泛应用于图像配准、场景增强、目标检测和语义分割等任务。红外-可见光融合（IVF）结合热辐射和纹理细节，克服光照和分辨率限制；医学图像融合（MIF）整合多种成像技术，支持精准诊断。然而，该任务面临两大核心挑战：1）不同模态的非线性感知过程难以建模；2）缺乏真实融合图像（ground truth），限制了监督学习范式的应用。

为此，文中提出等变多模态图像融合（EMMA），一个自监督学习框架，通过引入等变性先验和伪感知机制解决上述问题。EMMA的核心创新包括：

问题建模：将图像融合视为非线性盲逆问题，表述为负对数似然最小化问题
自监督范式：EMMA通过伪感知模块模拟感知过程，将融合图像映射回源模态 ,替代传统损失，避免对真实融合图像的依赖。
等变性先验：基于自然成像系统对变换（如平移、旋转）的等变性，EMMA引入非领域特定先验，确保融合图像在变换前后感知一致。这增强了模型的约束力和泛化能力。
网络架构：
- U-Fuser模块：基于U-Net和Restormer，建模多尺度全局/局部特征，有效融合信息。
- 伪感知模块：模拟感知过程，生成伪模态数据，支持自监督训练。
- 等变融合模块：强化等变性约束，确保融合图像符合成像先验。

技术优势：

无真实数据依赖：通过伪感知和等变性先验实现自监督学习，降低数据需求。
域差异处理：伪感知模块考虑模态特征流形的差异，提升融合质量。
多任务适用性：高质量融合图像支持下游任务，如目标检测和语义分割。

多模态图像融合
在深度学习时代，多模态图像融合方法可分为四类主要群体：生成模型[26-28]、基于自编码器的模型[16, 18, 22, 24, 46]、算法展开模型[6, 8, 41, 52]和统一模型[15, 37, 38, 47, 49]。生成模型通过生成对抗网络[26-28]或去噪扩散模型[55]在潜空间中表示融合图像和源图像的分布。基于自编码器的模型使用包含CNN或Transformer块的编码器/解码器作为基本单元，建模图像域与特征域之间的映射/逆映射[20, 35, 54]。算法展开模型将算法重点从数据驱动学习转向模型驱动学习，用CNN/Transformer块替换复杂算子，同时保留原始计算图结构，实现轻量化和可解释学习[19, 52]。统一模型通过跨任务学习识别不同任务之间的元知识，实现对新任务的快速适应并以较少样本提升性能[38, 46]。此外，多模态图像融合任务常与上游（预处理）图像配准[13, 36, 39]和下游目标检测及语义分割任务[21, 23, 31, 33]集成。图像配准可有效消除图像伪影和未对齐区域，增强边缘清晰度并扩展感知场[11, 39, 40]。此外，下游任务中识别损失的梯度可有效指导融合图像的生成[21, 23, 33, 50]。

等变成像
等变成像（Equivariant Imaging, EI）[2-4]是一种新兴的完全无监督成像框架，利用自然信号的群不变性从部分测量数据中学习重构函数。EI的核心思想是利用自然信号常具有的某些对称性。例如，图像通常具有平移不变性，即在平移后外观不变。基于这种不变性先验，整个成像系统（从感知到重构）对变换具有等变性。在特定感知条件下[32]，重构函数能够正确重构变换后的图像，即使从未见过这些图像。作为一种有前景的成像新方法和图像获取与处理新方式，EI已被证明对多种线性逆问题有效[4]。本文致力于探索EI在更具挑战性的非线性盲逆问题（即多模态图像融合）中的潜力。

与现有方法的比较
a) 与常规融合损失（如图像或特征域中的 $\|f - i_1\| + \|f - i_2\|$ [18, 33, 51]）相比，EMMA中的伪感知损失项（公式(2)）缓解了传统损失因 f 与 ${i_1, i_2}$ 流形差异导致的不合理性，确保 ${hat{i}_1, i_1}$ 和 ${hat{i}_2, i_2}$ 之间的距离计算在同一域内。b) 类似的融合到源映射概念[44, 46]旨在使 f 可分解为 ${i_1, i_2}$ ，以确保其包含源图像信息。然而，它们的分解模块作为融合算法的组成部分，在训练期间会更新，融合输出被视为源重构的特征。因此，分解学习的熟练程度并不一定与融合信息的增强相关。相比之下，在EMMA范式中，伪感知模块的学习与融合网络解耦，且在EMMA训练期间保持冻结，从而确保从融合图像到源图像的映射明确且确定。这增强了感知模块的合理性和可解释性。
c) 此外，其他基于先验的优化[19, 51]通常需要融合图像的领域知识。然而，在EMMA中，我们仅需使用成像系统先验而非融合图像先验即可实现自监督学习。

四.方法

在本节中，我们首先提供模型形式化，包括感知模块和融合模块，并给出建立等变图像融合范式的模型假设。然后，以红外-可见光图像融合（IVF）任务为例，介绍EMMA的实现细节。其他图像融合任务可类似推导。

4.1 问题概述

设 i, v, f 分别表示红外图像、可见光图像和融合图像，其中 $i \in \mathbb{R}^{HW}, v \in \mathbb{R}^{3HW}, f \in \mathbb{R}^{3HW}$ 。我们假设存在一个信息丰富的 f，包含多传感器和多模态信息，需要被预测。然而，现实中尚无感知设备能完全感知 f。因此，作为无监督任务，f 没有真实数据（ground truth）。我们将融合过程和感知过程建模如下：

$f = F(i, v) + n_f \quad \Leftrightarrow \quad i = A_i(f) + n_i, \quad v = A_v(f) + n_v$

其中， $F(\cdot, \cdot)$ 表示融合模型， $A_i(\cdot)$ 和 $A_v(\cdot)$ 分别表示红外和RGB相机的感知模型。在传统图像逆问题 y = A(x) + n 中，x 和 y 分别是真实图像和测量值，降质算子 $A(\cdot)$ 已知（如去噪任务的噪声分布或超分辨率任务的模糊核）。然而，在图像融合中， $A_i$ 和 $A_v$ 无法明确获得。尽管如此，我们可将其设置为可学习的，以模拟感知过程并辅助网络进行自监督学习。

4.2 模型假设

为提供全面的感知和融合模型，并支持后续EMMA框架的引入，我们首先需建立以下假设：

a) 测量一致性。假设融合函数 $F(\cdot, \cdot)$ 在测量域内保持一致性，即：

$A_i(F(i, v)) = i, \quad A_v(F(i, v)) = v$

然而，由于感知过程的欠定性，F(i, v) 的估计无法通过估计 $A_i$ 或 $A_v$ 的逆实现，需学习超出其逆范围空间的信息。

b) 不变集一致性。我们首先给出等变成像[4]中的两个定义：

定义1（不变集）：对于由单位矩阵 $T_g \in \mathbb{R}^{n \times n}$ 组成的变换集 $G = \{g_1, \ldots, g_{|G|}\}$ ，若对任意 $x \in X$ 和任意 $g \in G$ ，有 $T_g x \in X$ ，则 X 是相对于变换 G 的不变集，即 $T_g X$ 与 X 相同。

定义2（等变函数）：若函数 I 满足 $I(T_g x)$ = $T_g I(x)$ 对任意 $x \in X$ 和 $g \in G$ 成立，则称 I 是相对于变换 G 的等变函数。

根据定义1的推论，若 X 表示自然图像集，显然经过平移、旋转、反射等变换后仍为自然图像，因此 X 是变换群 G 的不变集。此外，由融合图像 f 组成的集合作为 X 的子集，同样对 G 不变。在定义1和2中，“不变性”涉及数据集的属性，而“等变性”描述成像系统的属性，即成像系统（本文记为 $F \circ A$ ）是相对于 G 的等变函数。因此，我们提出以下定理：

定理1（等变图像融合定理）：若将定义2中的 I 视为复合函数 $F \circ A$ ，其中 F 为融合模型，A（包括 $A_i$ 和 $A_v$ ）为感知模型，则等变图像融合定理为：

$F(A_i(T_g f), A_v(T_g f)) = T_g F(A_i(f), A_v(f))$

证明：考虑满足不变性属性的自然图像集 X，根据定义2，成像系统 $F \circ A$ 应相对于群动作 ${T_g}$ 等变。因此，对任意 $f \in X$ ，有 $F \circ A(T_g f) = T_g F \circ A(f)$ 。进一步，将 A 分解为 $A_i$ 和 $A_v$ ，可得公式(5)。
备注1：公式(5)不要求 F 或 A 单独对 $T_g$ 等变，仅要求 $F \circ A$ 等变。因此，F 和 A 可设为任意形式的映射，不受限制。接下来，我们将展示如何基于定理1建立等变图像融合范式。

4.3 等变图像融合范式

本文的重点是提出EMMA，一个基于等变成像先验的自监督图像融合框架，具体工作流程如图1所示。

总体范式：首先，我们建立一个类U-Net的融合模块 $F(\cdot)$ ，命名为U-Fuser，结合Restormer[45]与CNN块作为基本单元，从输入 i 和 v 生成融合图像 f。随后，基于定理1的等变图像融合定理，采用包含U-Fuser模块和可学习（伪）感知模块 $A_i$ 和 $A_v$ 的等变先验自监督框架，以在无融合真实数据的情况下更好地保留源图像信息。具体地，我们对U-Fuser估计的 f 施加一系列变换 $T_g$ ，得到 $f_t$ ，然后通过伪感知模块 ${A_i, A_v}$ 得到伪图像 ${i_t, v_t}$ 。最后，再次用U-Fuser融合 ${i_t, v_t}$ ，得到重融合图像 $hat{f}_t$ 。与其他需要精心设计的损失函数以最小化 f 与 ${i, v}$ 距离的方法不同，EMMA的损失聚焦于使感知模块从 f 生成的伪图像 ${A_i(f), A_v(f)}$ 尽可能接近原始 ${i, v}$ ，同时使 $f_t$ 与 $hat{f}_t$ 接近。从自然成像视角，找到最优融合图像 f。
U-Fuser模块：我们采用类U-Net结构融合 i 和 v，生成融合图像 f。在每个尺度上，由于输入跨模态特征包含全局特征（如环境和背景信息）及局部特征（如高光和细节纹理），我们设计Transformer-CNN结构，利用各自的归纳偏差更好地建模跨模态特征。对于Transformer块，我们采用Restormer块[45]，在通道维度实现自注意力，以较小的计算量建模全局特征。在CNN块中，我们使用Res-block[10]。Restormer-CNN块的输入特征嵌入后，分别由Restormer块和Res-block并行处理，随后进行嵌入交互和CNN层处理，输入到下一尺度。同一尺度的 i 和 v 特征在融合层融合，并通过跳跃连接传递到上一尺度的重构分支。特征融合和重构块的设计与特征提取分支的Restormer-CNN块相同。
伪感知模块：与其他工作主要聚焦于融合函数 F 的设计不同，本文提出基于等变成像先验的自监督学习框架，解决融合图像缺乏真实数据的问题。根据定理1的等变图像融合定理，我们需要从 $A_i(f)$ 和 $A_v(f)$ 获得伪成像结果。为此，需模拟从（假想的）融合图像感知红外和可见光图像的过程，如公式(4)所述。由于无法明确给出 $A_i$ 和 $A_v$ 的结构，我们采用数据驱动学习方法。最近，许多基于深度学习的图像融合方法显示出良好结果。因此，我们选择了15种在顶级会议上出现的最新技术（SOTA）：DIDFuse[51]、U2Fusion[38]、SDNet[46]、RFN-Nest[18]、AUIF[52]、RFNet[39]、TarDAL[21]、DeFusion[20]、ReCoNet[11]、MetaFusion[50]、CDDFuse[54]、LRRNet[19]、MURF[40]、DDFM[55]和SegMIF[23]。我们使用它们的融合结果作为融合图像的（伪）真实数据，然后学习从融合图像到 i 和 v 的映射，分别视为 $A_i$ 和 $A_v$ 。考虑到映射的输入和输出具有相同图像尺寸，我们选择U-Net[30]作为 $A_i$ 和 $A_v$ 的骨干网络，并进行端到端训练。具体网络细节见补充材料。
等变图像融合：在获得U-Fuser F 和伪感知函数 ${A_i, A_v}$ 后，我们引入基于图像等变先验的自监督学习框架。如图1所示，我们首先将图像对 ${i, v}$ 输入 F，得到融合图像 f（传统融合算法的完整操作）。然后，对 f 施加一系列变换 $T_g$ （包括平移、旋转、反射等），得到 $f_t$ 。随后，将 $f_t$ 输入训练好的 ${A_i, A_v}$ ，得到伪感知图像 ${i_t, v_t}$ ，其包含 $f_t$ 的信息并满足红外和可见光图像的成像特性。最后，将成对的 ${i_t, v_t}$ 输入 F，得到重融合图像 $hat{f}_t$ 。在整个框架中，我们旨在将 ${i, v}$ 的信息聚合成 f，并根据定理1的等变图像融合定理， $f_t$ 和 $hat{f}_t$ 应足够接近。这通过设计的损失函数保证。
训练细节和损失函数：在EMMA的整个训练过程中，我们首先使用损失函数训练 $A_i$ 和 $A_v$ ，即：

$L_{\text{Rec}}^I = \ell_2(i, A_i(\tilde{f})), \quad L_{\text{Rec}}^V = \ell_2(v, A_v(\tilde{f}))$

其中， $\tilde{f}$ 是3.3节中SOTA方法的融合结果。然后，我们冻结 $A_i$ 和 $A_v$ 的参数，即伪感知模块的参数不再更新。之后，我们用总损失函数训练U-Fuser模块：

$L_{\text{total}} = L(A_i(f), i) + \alpha_1 L(A_v(f), v) + \alpha_2 L(f_t, \hat{f}_t)$

其中， $L(x, \hat{x}) = \ell_1(x, \hat{x}) + \ell_1(\nabla x, \nabla \hat{x})$ ， $\alpha_1$ 和 $\alpha_2$ 是调节参数， $\nabla$ 表示Sobel算子。特别地，公式(6)的第一项和第二项确保范式满足3.2节中模型假设的测量一致性，第三项确保满足不变集一致性。

4.4 解释

我们将解释EMMA无监督融合为何有效。由于图像集 ${f}$ 对一组可逆变换 ${T_g}$ 不变，对于任意来自不变集 ${f}$ 的图像 f，对所有 g = 1, $\ldots$ , |G|， $T_g f$ 也属于该集。根据定理1的等变定理，有 ${i, v} = A f = A T_g T_g^{-1} f = A_g f'$ ，其中 $A_g = A T_g$ ， $f' = T_g^{-1} f$ 属于 ${f}$ 。也就是说，施加变换等价于生成多个虚拟感知算子 ${A_g}_{g=1,\ldots,|G|}$ 。由于这些虚拟算子 $A_g$ 具有潜在不同的零空间，这允许我们学习超出逆 A 范围空间的信息[32]。缺乏真实数据可能导致 $A_i$ 和 $A_v$ 建模不准确，使 f 的重构在训练初期不理想。幸运的是，通过对 $f_t$ 的变换和等变成像先验的学习，补全了原本缺失的知识，校准并优化融合结果，即恢复了缺失的零空间分量。值得注意的是，在最终算法部署阶段，仅需微调后的U-Fuser F，其他模块（如 $A_i$ 和 $A_v$ ）将被忽略。
最后，提出的等变融合模块与数据增强（DA）不同，DA主要基于真实数据扩展数据。然而，在图像融合任务中，真实数据不可获取，DA无法提供额外信息增益[2, 4]。幸运的是，如我们所示，凭借等变先验，EMMA能够提供额外信息，生成合理且符合原理的融合结果。

五.实验

5.1 红外与可见光图像融合

实验设置
我们在三个流行基准数据集上进行实验：MSRS[34]、RoadScene[37]和M3FD[21]。网络在MSRS训练集上训练，并在测试集上评估性能。此外，训练好的模型直接应用于RoadScene和M3FD，无需微调，以验证泛化性能。实验使用PyTorch在配备两块NVIDIA GeForce RTX 3090 GPU的计算机上进行。训练图像对随机裁剪为 $128 \times 128$ 像素块，批量大小为8，然后输入网络。公式(6)中的 $\alpha_1$ 和 $\alpha_2$ 分别设为1和0.1，以确保损失函数各项量级相当。

$L_{\text{total}} = L(A_i(f), i) + \alpha_1 L(A_v(f), v) + \alpha_2 L(f_t, \hat{f}_t)$

我们使用Adam优化器训练网络100个epoch，初始学习率为 1e-4，每20个epoch降低0.5倍。U-Fuser设置为四层结构。 $A_i$ 和 $A_v$ 设置为五层U-Net[30]，在U-Fuser训练前预训练并冻结参数。变换集 G 的细节在补充材料中讨论。

SOTA方法与评估指标
我们将EMMA与IVF的SOTA方法进行比较，包括SDNet[46]、TarDAL[21]、DeFusion[20]、MetaFusion[50]、CDDFuse[54]、LRRNet[19]、MURF[40]、DDFM[55]和SegMIF[23]。使用六个指标客观比较融合性能，包括熵（EN）、标准差（SD）、空间频率（SF）、平均梯度（AG）、结构内容差异（SCD）和视觉信息保真度（VIF）。值越高表示融合效果越优，计算细节见[25]。

定性比较
我们在图2和图3中比较EMMA与SOTA方法的融合结果。我们的结果成功整合了红外图像的热辐射信息和可见光图像的细节纹理特征。图2显示融合图像准确捕捉了各模态的优势，同时消除冗余信息。融合过程增强了目标可见性，锐化纹理，减少伪影。图3中，处于光照不足环境的目标物体被显著高亮，边缘清晰，轮廓丰富。这种独特性有助于区分前景目标与背景，从而增强对场景的理解。

定量比较
融合结果使用六个指标进行定量比较，如表1所示。我们的方法在几乎所有指标上表现出色，证明其适用于各种环境条件和目标类别。这些结果表明EMMA能生成符合人类视觉感知的图像，同时保留源图像特征的完整性，生成信息丰富的融合图像。

5.1.1 消融研究

我们在MSRS测试集上进行消融研究，验证EMMA的合理性，结果如表2所示。
损失函数中的项：
在实验I中，我们移除公式(6)中的最后一项，即等变项。尽管融合模块能完成图像融合，但无法通过等变先验约束解空间，导致网络性能较弱。在实验II中，我们将公式(6)的前两项修改为 $\ell_1(f, i) + \ell_1(f, v)$ ，这是其他融合任务中的传统损失。公式(6)的前两项（感知损失）保证融合图像需继承足够的源图像信息，使输出伪感知成像结果更接近源图像。而传统损失函数仅强制融合图像接近源图像。实验II的结果证明了感知损失项的必要性。在实验III中，我们将公式(6)的损失替换为实验II的损失。结果表明，若无等变损失和感知损失，仅依赖 $\ell_1(f, i) + \ell_1(f, v)$ 难以实现理想的融合网络。在实验IV中，为进一步验证我们的观点，我们对输入图像 i 和 v 使用与EMMA相同的变换进行数据增强（DA），扩展实验III。即，我们对原始网络输入应用与EMMA相同的变换群，融合训练框架遵循传统方法。具体地，损失函数变为：

$\|f - i\| + \|f - v\| + \|f_t - i_t\| + \|f_t - v_t\|$

其中， $f_t = T_g f$ 。实验结果表明，在相同变换下，DA对 i 和 v 的提升微小。相比之下，与EMMA相比，效果差异显著。因此，我们的等变融合模块与传统DA本质不同，因为DA在无真实数据的成像学习中无法提供额外信息增益。
U-Fuser：在实验V和实验VI中，我们分别移除Restormer块或Res-block，通过增加剩余块数量确保参数一致。结果表明，不完整的特征提取模块导致局部纹理细节建模不足或长程依赖捕捉不足，从而性能下降。

5.2 下游IVF应用

本节旨在检验图像融合对下游视觉任务的影响。我们评估融合结果在多模态语义分割（MMSS）和多模态目标检测（MMOD）任务中的性能。为确保公平性，我们为每个任务使用各自方法的融合结果单独重新训练网络。由于空间限制，视觉比较置于补充材料中。
红外-可见光目标检测：MMOD任务在M3FD数据集[21]上进行，包含4200张图像，涵盖六个类别标签：人、汽车、公交车、摩托车、卡车和路灯。我们将M3FD数据集按8:1:1的比例分为训练/验证/测试集。使用SGD优化器训练YOLOv5检测器[14]，训练400个epoch，批量大小为8，初始学习率为0.01。我们通过比较mAP@0.5评估检测性能。表3显示EMMA展现最优检测能力，通过融合热辐射和RGB信息增强检测精度，突出难以检测的目标。
红外-可见光语义分割：MSRS数据集[34]专为MMSS任务设计，包含九个像素级标签类别：背景、凸点、锥形标、护栏、曲线、自行车、人、停车线和汽车。我们选择DeeplabV3+[5]作为分割网络，通过交并比（IoU）评估性能。训练和测试集的划分遵循原始数据集论文[34]的协议。我们使用交叉熵损失和SGD优化器，总计训练340个epoch，前100个epoch冻结骨干网络。批量大小和初始学习率设为8和 7e-3，学习率随epoch增加按余弦退火延迟调整。分割结果如表4所示。EMMA有效结合源图像中的边缘和轮廓细节，提升模型识别目标边界的能力，导致更精确的分割。

5.3 医学图像融合

实验设置
我们在Harvard Medical数据集[9]上进行MIF实验，包含50对MRI-CT/MRI-PET/MRI-SPECT图像对。我们直接将IVF任务上训练的模型泛化到MIF任务，无需微调。使用的定量指标与IVF任务相同。

与SOTA方法比较
在视觉感知和定量指标（图4和表1）中，EMMA在提取结构高光和细节纹理特征方面展现出卓越精度，有效整合融合图像中的特征，从而实现出色的融合结果。

实验设计与设置
EMMA在IVF任务上通过MSRS、RoadScene和M3FD数据集验证性能，采用PyTorch和RTX 3090 GPU实现高效训练。

性能比较

定性结果：EMMA融合图像（图2、3）有效整合红外热辐射和可见光纹理，增强目标可见性、锐化边缘、减少伪影，优于SOTA方法（如SDNet[46]、TarDAL[21]）。
定量结果：表1显示EMMA在EN、SD、SF、AG、SCD、VIF六个指标上接近全面领先，表明其生成符合视觉感知、信息丰富的图像。
消融研究（表2）：
1. 等变项必要性：移除公式(6)中 $\alpha_2 L(f_t, \hat{f}_t)$ （实验I）导致解空间约束不足，性能下降，验证等变先验的关键性。
2. 感知损失优势：将公式(6)前两项替换为传统 $\ell_1(f, i) + \ell_1(f, v)$ （实验II、III）忽略模态流形差异，重构效果变差，凸显感知损失的合理性。
3. 等变vs数据增强：实验IV用公式(7)进行DA，效果远逊于EMMA，证明等变模块通过虚拟感知算子提供信息增益，而DA在无真实数据场景下无效。
4. U-Fuser设计：移除Restormer或Res-block（实验V、VI）导致全局或局部特征提取不足，验证Transformer-CNN结构的必要性。

下游任务应用

目标检测（M3FD, 表3）：EMMA融合图像提升YOLOv5的mAP@0.5，通过整合热辐射和RGB信息增强低光照目标检测。
语义分割（MSRS, 表4）：EMMA融合图像改善DeeplabV3+的IoU，优化边缘和轮廓识别，提升分割精度。
医学图像融合（Harvard Medical, 表1）：EMMA直接泛化到MIF，提取结构和纹理特征，展现跨任务适应性。

六.结论

本文通过采用一个概念上简单但强有力的先验来解决图像融合中缺乏真实数据（ground truth）的问题，即自然成像响应对平移、旋转和反射等变换具有等变性。在此基础上，我们提出了一个名为等变图像融合的自监督范式，通过考虑自然成像原理调整损失函数的固有模式，使其模拟感知-成像过程。我们还引入了一个类U-Net的融合模块，以Restormer-CNN块为基本单元，促进全局-局部特征提取和高效信息融合。实验结果证实了我们提出的范式在多模态图像融合中的有效性，以及其在促进下游任务（如多模态分割和检测）中的潜力。

核心创新

等变性先验：利用自然信号对平移、旋转、反射等变换的等变性（即变换后成像系统输出一致），设计自监督学习框架。损失函数通过模拟感知-成像过程（ $F \circ A$ ），约束融合图像 f 的生成，确保其符合自然成像规律，无需真实数据。
等变图像融合范式（EMMA）：调整损失函数，结合伪感知损失（如 $L(A_i(f), i)$ 和等变一致性损失（如 $L(f_t, \hat{f}_t)$ ），优化融合过程。伪感知模块 $A_i, A_v$ 通过预训练SOTA融合结果学习，冻结后提供稳定映射。
U-Fuser模块：基于类U-Net架构，集成Restormer（Transformer）和CNN块，高效建模全局（环境、背景）和局部（纹理、边缘）特征。多尺度跳跃连接确保跨模态信息整合，优于单一CNN或Transformer模型。