【论文阅读| TPAMI 2020 | U2Fusion：一种统一的无监督图像融合网络】

最新推荐文章于 2025-05-31 17:12:21 发布

berling00

最新推荐文章于 2025-05-31 17:12:21 发布

阅读量903

点赞数 17

CC 4.0 BY-SA版权

文章标签：论文阅读

本文链接：https://blog.youkuaiyun.com/berling00/article/details/147054019

在这里插入图片描述

题目：U2Fusion: A Unified Unsupervised Image Fusion Network

会议：TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE（TIPAMI）

论文：https://ieeexplore.ieee.org/abstract/document/9151265

代码：https://github.com/hanna-xu/U2Fusion

年份：2020

1.摘要&&引言&&相关工作

本研究提出了一种新颖的统一无监督端到端图像融合网络，称为 U2Fusion，它能够解决不同的融合问题，包括多模态、多曝光和多聚焦情况。

在信息保留方面，首先采用特征提取器从源图像中提取丰富全面的特征，然后度量特征中的信息丰富度，以定义这些特征的相对重要性，这反映了源图像与融合结果之间的相似关系。相似度越高，意味着该源图像在结果中保留的信息越多，信息保留程度也就越高。基于这些策略，训练一个 DenseNet 模块来生成融合结果，且无需真实标签。我们工作的特点和贡献总结如下：

我们为各种图像融合任务提出了统一框架。具体而言，用统一的模型和参数解决不同的融合问题，该方案缓解了不同问题分别求解、训练时的存储和计算问题，以及持续学习中的灾难性遗忘问题。
我们通过约束融合图像与源图像之间的相似性，开发了一种新的无监督图像融合网络，克服了大多数图像融合问题中普遍存在的障碍，即缺乏通用真实标签和无参考度量标准。
我们发布了新的对齐红外和可见光图像数据集 RoadScene，为图像融合基准评估提供了新选择，可在https://github.com/hanna-xu/RoadScene获取。
我们在六个数据集上对多模态、多曝光和多聚焦图像融合进行了测试，定性和定量结果验证了 U2Fusion 的有效性和通用性。

传统融合框架大致可概括为图 2。由于重建通常是提取的逆过程，这些算法的关键在于两个重要因素：特征提取和特征融合。通过对它们进行修改，这些方法可用于解决多模态、多曝光或多聚焦图像融合问题。

在这里插入图片描述

图2. 传统图像融合框架。

然而，这些手动设计的提取方法使融合方法日益复杂，增加了设计融合规则的难度。

为避免设计融合规则，许多基于深度学习的算法应运而生。与之前方法不同，这些方法通常是针对特定融合任务的端到端模型

考虑到上述限制，我们提出了一种统一的无监督图像融合网络，具有以下特点：

它是一个端到端模型，不受手动设计融合规则的限制；
它是一个适用于各种融合任务的统一模型，而不是针对特定目标（如独特问题、度量标准的特异性、二值掩码的需求等）；
它是一个无监督模型，无需真实标签；
通过持续学习解决新任务且不丧失旧能力，它用统一的参数解决多个任务.

2.方法

2.1 问题公式化

聚焦于图像融合的主要目标，即保留源图像中的关键信息，我们的模型基于度量来确定信息的丰富程度。

如果源图像包含丰富的信息，那么它对融合结果就非常重要，融合结果应与该源图像具有较高的相似性。

因此，我们方法的关键问题是探索一种统一的度量方法，来确定源图像的信息保留程度。与监督学习中最大化融合结果与真实标签之间的相似性不同，我们的方法依赖于这些程度来保持与源图像的自适应相似性。而且，作为一个无监督模型，它适用于难以获得真实标签的多种融合问题。

对于所需的度量，一个主要问题是不同类型源图像中的关键信息差异很大。
例如：

在 IR 和正电子发射断层扫描（PET）图像中，关键信息是热辐射和功能响应，表现为像素强度分布；
在 VIS 和磁共振成像（MRI）图像中，关键信息是反射光和由图像梯度表示的结构内容；
在多聚焦图像中，要保留的信息包括景深（DoF）内的物体；
在多曝光图像中，关键信息涉及可增强的场景内容。

上述可变性给设计统一的信息度量带来了相当大的困难，为特定任务设计的度量标准在面对其他问题时不再有效。它们基于某些表面特征或特定属性，而在不同任务中，这些很难以统一的方式预先确定。我们通过综合考虑源图像的多方面属性来解决这个问题，为此，我们提取浅层特征（纹理、局部形状等）和深层特征（内容、空间结构等）来估计信息度量。

U2Fusion 的整体流程如图 3 所示，其核心是通过 DenseNet 实现多曝光图像融合，具体步骤如下：

输入与目标

输入图像：源图像 $I_1$ （过曝光）和 $I_2$ （欠曝光）
输出图像：融合图像 $I_f$ ，需同时保留两图的纹理与内容信息

特征提取与信息度量

使用预训练 DenseNet 提取特征图：
$\phi_{C_1}(I_1), \cdots, \phi_{C_5}(I_1) \quad \text{和} \quad \phi_{C_1}(I_2), \cdots, \phi_{C_5}(I_2)$
对特征图进行信息度量，生成量化指标：
$g_{I_1}, \, g_{I_2}$
后续处理后得到信息保留程度：
$\omega_1, \, \omega_2$

损失函数与优化

无监督训练：无需真实标签，直接利用以下变量构建损失函数：
$f(I_1, I_2, I_f, \omega_1, \omega_2)$
训练阶段：
1. 计算 $\omega_1$ 和 $\omega_2$ 衡量信息保留差异
2. 通过反向传播优化 DenseNet 参数，最小化损失函数
测试阶段：
- 直接输入 $I_1$ 和 $I_2$ 生成 $I_f$
- 无需重复计算 $\omega_1$ 和 $\omega_2$

在这里插入图片描述

图3：U2Fusion整体流程框架

注： $\omega_1$ 和 $\omega_2$ 动态反映图像信息完整性，通过特征图的全局统计特性（如熵、梯度分布）计算得出。

2.1.1 特征提取

与在融合任务中训练的模型相比，用于其他计算机视觉任务的模型通常在更大且更多样化的数据集上进行训练，因此这些模型提取的特征丰富且全面。受感知损失的启发，我们采用预训练的 VGG-16 网络进行特征提取，如图 4 所示。具体流程如下：

输入处理
输入图像 $I$ 已统一为单通道（我们将在 3.5 节讨论此转换），随后将其复制为三个通道并输入到 VGG-16 中。
特征提取阶段
- 最大池化层之前的卷积层输出被用作后续信息度量的特征图，记为 $\phi_{C_{1}}(I), \cdots, \phi_{C_{5}}(I)$ 。
- 特征图的形状及层次特性如下：
  - 浅层特征（ $\phi_{C_1}(I)$ 和 $\phi_{C_2}(I)$ )
    基于纹理和形状细节等浅层特征。在过曝光图像中，由于亮度较高，其特征图仍比欠曝光图像包含更多纹理细节或更大梯度。
  - 深层特征（ $\phi_{C_4}(I)$ 和 $\phi_{C_5}(I)$ )
    主要保留内容或空间结构等深层特征。欠曝光图像在这些层中表现出可比且更丰富的信息。
特征融合的意义
浅层和深层特征的结合形成了对人类视觉感知系统不易察觉的基本信息的全面表示。例如：
- 过曝光图像的浅层特征更丰富（图 5(a)-(b)）。
- 欠曝光图像的深层特征更完整（图 5©-(d)）。

在这里插入图片描述

图4. VGG-16为输入图像I提取的感知特征图， $\phi_{C_{j}}(I)$ 表示第3个最大池化层之前的卷积层提取的特征图。最后一行是以[批量大小, 高度, 宽度, 通道数]形式呈现的特征图形状。

在这里插入图片描述

图5. VGGNet为过曝光和欠曝光图像提取的特征图示意图。

2.1.2 信息度量

为度量提取的特征图中包含的信息，我们使用其梯度进行评估。与基于一般信息论的实体相比，图像梯度是一种基于局部空间结构且感受野较小的度量。在深度学习框架中使用时，梯度在计算和存储方面都更高效，因此更适合在 CNN 中用于信息度量。信息度量定义如下：

$g_{I} = \frac{1}{5} \sum_{j=1}^{5} \frac{1}{H_{j} W_{j} D_{j}} \sum_{k=1}^{D_{j}} \left\| \nabla \phi_{C_{j}^{k}}(I) \right\|_{F}^{2}$

其中：

$\phi_{C_{j}}(I)$ 是图 4 中第 $j$ 个最大池化层之前卷积层的特征图
$k$ 表示 $D_{j}$ 个通道中第 $k$ 个通道的特征图
$\|\cdot\|_{F}$ 表示弗罗贝尼乌斯范数（即矩阵元素平方和的平方根）
$\nabla$ 是拉普拉斯算子

2.1.3 信息保留程度

为平衡融合图像对源图像的信息保留能力，本方法引入自适应权重 $\omega_1$ 和 $\omega_2$ 作为信息保留程度的量化指标。权重值直接反映源图像与融合图像的相似性强度，其定义如下：

$\left[\omega_{1}, \omega_{2}\right] = \text{softmax}\left(\left[\frac{g_{I_{1}}}{c}, \frac{g_{I_{2}}}{c}\right]\right)$

设计原理

权重作用
- 权重越高，表明对应源图像与融合图像的相似性越强
- 权重越低，表明需要加强该源图像的信息保留
常数c的作用
- 解决 $g_{I_1}$ 和 $g_{I_2}$ 绝对值差异过小的问题
- 通过缩放操作增强权重分配的区分度
- 公式中的 $c$ 为预定义正常数（实验设定 $c = 1$ ）
Softmax映射
- 将归一化后的值 $\frac{g_{I_j}}{c}$ 映射到 [0, 1] 区间
- 保证权重满足约束条件： $\omega_1 + \omega_2 = 1$

计算流程

信息度量计算
通过公式 $g_{I} = \frac{1}{5} \sum_{j=1}^{5} \frac{1}{H_{j} W_{j} D_{j}} \sum_{k=1}^{D_{j}} \left\| \nabla \phi_{C_{j}^{k}}(I) \right\|_{F}^{2}$ 分别计算 $g_{I_1}$ 和 $g_{I_2}$
权重归一化
- 对 $g_{I_1}$ 和 $g_{I_2}$ 进行归一化处理： $\frac{g_{I_j}}{c}$
- 应用 Softmax 函数生成权重向量
动态调整
在训练过程中自动更新 $\omega_1$ 和 $\omega_2$ ，以优化以下目标：
- 保持高频细节（来自高梯度区域）
- 保留低频内容（来自高信息稳定性区域）

2.2 损失函数

损失函数设计为双约束优化框架，用于平衡信息保留与持续学习能力，其定义如下：

$\mathcal{L}(\theta, D) = \mathcal{L}_{\text{sim}}(\theta, D) + \lambda \mathcal{L}_{\text{ewc}}(\theta, D)$

其中：

$\theta$ ：DenseNet 网络参数
$D$ ：训练数据集
$\mathcal{L}_{\text{sim}}$ ：融合图像与源图像的相似性损失
$\mathcal{L}_{\text{ewc}}$ ：弹性权重巩固（Elastic Weight Consolidation）项（见 3.3 节）
$\lambda$ ：权衡参数（实验设定 $\lambda=0.5$ ）

相似性损失分解

$\mathcal{L}_{\text{sim}}$ 通过结构相似性和强度分布双重约束实现：

$\mathcal{L}_{\text{sim}}(\theta, D) = \mathcal{L}_{\text{ssim}}(\theta, D) + \alpha \mathcal{L}_{\text{mse}}(\theta, D)$

1. SSIM 约束项

$\mathcal{L}_{\text{ssim}}(\theta, D) = \mathbb{E}\left[ \omega_1 \cdot (1 - S_{I_f, I_1}) + \omega_2 \cdot (1 - S_{I_f, I_2}) \right]$

$S_{x,y}$ ：图像 $x$ 和 $y$ 的结构相似性指数（SSIM）
$\omega_1, \omega_2$ ：信息保留权重（见 3.1.3 节）
设计目的：保持融合图像与源图像的结构一致性（对比度/内容）

2. MSE 约束项

$\mathcal{L}_{\text{mse}}(\theta, D) = \mathbb{E}\left[ \omega_1 \cdot MSE_{I_f, I_1} + \omega_2 \cdot MSE_{I_f, I_2} \right]$

$MSE_{x,y}$ ：图像 $x$ 和 $y$ 的均方误差
设计目的：抑制融合图像与源图像的强度分布差异

3. 双约束协同

SSIM 侧重保留高频细节（纹理/边缘）
MSE 抑制整体亮度偏移
通过参数 $\alpha$ 控制两者权重平衡（实验设定 $\alpha=0.3$ ）

2.3 基于弹性权重巩固（EWC）的多任务单一模型

针对多融合任务中参数冗余导致的模型重复训练问题，本方法提出基于弹性权重巩固（Elastic Weight Consolidation, EWC）的持续学习框架，实现单一模型适配多任务。具体流程如图6所示。

在这里插入图片描述

图6. 联合训练和顺序训练示意图。DenseNet之间的虚线箭头表示保留这些参数并将其设置为下一个任务的初始参数。在此基础上，根据新的目标对这些参数进行优化。

核心挑战与解决方案

问题类型	联合训练	顺序训练
存储问题	需保留全部历史数据	仅需当前任务数据
计算成本	O(N²)复杂度随任务数增长	O(N)线性复杂度
遗忘问题	无	需解决灾难性遗忘

EWC原理
通过引入正则化约束项 $\mathcal{L}_{\text{ewc}}$ 到总损失函数，保护重要参数不被过度修改：

$\mathcal{L}_{\text{ewc}}(\theta, D) = \frac{1}{2} \sum_{i} \mu_{i}\left(\theta_{i}-\theta_{i}^{*}\right)^{2}$

$\theta_i$ ：当前任务参数值
$\theta_i^*$ ：先前任务最优参数值
$\mu_i$ ：参数重要性权重（费舍尔信息矩阵对角项）

关键公式推导

重要性权重定义
$\mu_{i} = \mathbb{E}\left[\left(\frac{\partial}{\partial \theta_{i}^{*}} \log p(D^{*} | \theta^{*})\right)^{2} | \theta^{*}\right]$
梯度近似
用损失函数梯度替代对数似然梯度：
$\mu_{i} = \mathbb{E}\left[\left(-\frac{\partial}{\partial \theta_{i}^{*}} \mathcal{L}(\theta^{*}, D^{*})\right)^{2} | \theta^{*}\right]$

多阶段训练

任务1（多模态融合）：仅优化相似性损失 $\mathcal{L}_{\text{sim}}$
任务2（多曝光融合）：联合优化 $\mathcal{L}_{\text{sim}} + \mathcal{L}_{\text{ewc}}$
任务n（多聚焦融合）：基于前序任务累积的 $\mu_i$ 进行正则化

在这里插入图片描述

图7. 弹性权重巩固（EWC）过程中数据流的直观描述。细线表示仅保留一小部分数据，这些数据仅用于计算 $\mu_{i}$ ，而不用于训练DenseNet。

2.4 网络架构

在方法中，使用 DenseNet 生成融合结果 $I_{f}$ ，其输入是 $I_{1}$ 和 $I_{2}$ 的拼接。因此，它是一个端到端模型，无需设计融合规则。

如图 8 所示，U2Fusion 中 DenseNet 的架构由 10 层组成，每层都有一个卷积层和一个激活函数。所有卷积层的内核大小设置为(3×3)，步长为 1。在卷积前采用反射填充以减少边界伪影。不使用池化层以避免信息丢失。前九层的激活函数是斜率为 0.2 的 LeakyReLU，最后一层的激活函数是 tanh。

此外，研究证明，如果在靠近输入和靠近输出的层之间建立较短的连接，CNNs 可以显著加深并高效训练。

因此，在前七层中，采用密集连接卷积神经网络（densely connected CNNs）的密集连接块来改善信息流和性能。在这些层中，以前馈方式在每一层与所有层之间建立快捷直接连接，如图 8 中的拼接操作所示。

这样，可以减少梯度消失问题。同时，在减少参数数量的情况下，进一步加强特征传播。特征图的通道数均设置为 44。随后的四层逐渐减少特征图的通道数，直到得到单通道的融合结果，如图 8 所示。

在这里插入图片描述

图8. 我们模型中使用的DenseNet架构。拼接/LeakyReLU/tanh函数后面显示的数字是相应特征图的通道数。

2.5 处理 RGB 输入

RGB 输入首先转换到 YCbCr 颜色空间。然后，使用 Y（亮度）通道进行融合，因为结构细节主要在该通道，且该通道的亮度变化比色度通道更显著。Cb 和 Cr（色度）通道的数据按传统方式融合：

$C_{f} = \frac{C_{1} \left( | C_{1} - \tau | \right) + C_{2} \left( | C_{2} - \tau | \right)}{ | C_{1} - \tau | + | C_{2} - \tau | }$

其中：

$C_{1}$ 和 $C_{2}$ 分别是第一个和第二个源图像的 Cb/Cr 通道值
$C_{f}$ 是融合结果的相应通道
$\tau$ 设置为 128（亮度阈值）

然后，通过逆转换，融合图像可以转换回 RGB 空间。这样，所有问题都统一为单通道图像融合问题。

4.实验结果与讨论

在本节中，我们通过定性和定量比较，在多个任务和多个数据集上，将 U2Fusion 与几种最先进的方法进行比较。

可见光和红外图像融合

我们将 U2Fusion 与五种最先进的方法进行比较：HMSD、GTF、DenseFuse、FusionGAN 和 DDcGAN。
在 TNO 和 RoadScene 数据集上的定性结果分别如图 11 和图 12 所示。

在这里插入图片描述

图11. 在TNO数据集中4对典型的可见光（VIS）与红外（IR）图像上，我们的U2Fusion与5种最先进方法的定性对比。

在这里插入图片描述

图12. 在RoadScene数据集中5对典型的可见光（VIS）和红外（IR）图像上，U2Fusion与5种最先进方法的定性对比。

总体而言，U2Fusion 的图像看起来比其竞争对手更清晰。在突出显示的区域中，竞争对手丢失了一些细节，如汽车、标志和车牌。相比之下，U2Fusion 通过呈现更多细节缓解了这个问题。此外，在其中一个源图像信息很少的极端情况下，U2Fusion 在融合结果中更完整地保留了另一个源图像的信息，如图 11 的最后一行和图 12 的第一行所示。此外，U2Fusion 还用于融合 RoadScene 中的 VIS（RGB）和灰度 IR 图像。

在这里插入图片描述

如图 13 所示，融合结果更像是由 IR 图像增强的 VIS 图像，以获得更好的场景表示，因为融合过程仅在 Y 通道上进行，而彩色信息均来自 VIS 图像。
在 TNO 和 RoadScene 中剩余的 20 对和 45 对图像上进行定量比较。使用四个指标进行评估：相关系数（CC）、SSIM、峰值信噪比（PSNR）和差异相关之和（SCD）。CC 衡量源图像与结果之间的线性相关程度；PSNR 评估融合过程引起的失真；SCD 量化融合图像的质量。

在这里插入图片描述

表1 TNO和RoadScene数据集上可见光-红外图像融合的四个指标的均值和标准差（红色：最佳，蓝色：次佳）。

如表 1 所示，U2Fusion 在两个数据集上的 CC、SSIM 和 PSNR 指标中均排名第一。尽管它在 SCD 指标上排名第二，但结果相当。这些有前景的结果表明，U2Fusion 与源图像的保真度高，且失真、噪声或伪影更少。

本来还有其他多模态的融合，本文不再细究，感兴趣可以自行查看原文。

5.消融实验

5.1关于弹性权重巩固（EWC）的消融研究

在 U2Fusion 中，我们使用 EWC 来训练一个适用于三种融合任务的单一模型，以克服灾难性遗忘问题。为验证其有效性，我们进行了一项对比实验，在不使用 EWC 的情况下顺序训练任务。从三个方面分析其有效性：i）相似性损失；ii） $\mu_{i}$ 的统计分布；iii）训练阶段的中间融合结果。

相似性损失 $L_{sim }(\theta, D)$ 的变化如图 18 所示。
在这里插入图片描述

图18. 无弹性权重巩固（EWC）（第一个图）和有弹性权重巩固（EWC）（第二个图）时相似性损失的变化。

第一个图是未应用 EWC 时每个任务的相似性损失，第二个图是应用 EWC 时的相似性损失。任务 1 和任务 2 的损失之间差异不明显。然而，在不使用 EWC 对任务 3 进行 DenseNet 训练时，任务 2 的验证数据集上的损失明显增加，这表明当前网络在多曝光图像融合上的性能正在下降。使用 EWC 时，先前任务的相似性损失基本与训练时相同。因此，通过应用 EWC，我们可以获得一个适用于这些任务的单一模型。

我们还比较了使用和不使用 EWC 时 $\mu_{i}$ 的统计分布，如图 19 所示。
在这里插入图片描述

图19. 无弹性权重巩固（EWC）（第一个图）和有弹性权重巩固（EWC）（第二个图）时 $\mu_{1}$ 统计分布的变化。

$\mu_{i}$ 是在每个任务训练后，根据相似性损失和相应数据集计算得到的。例如，训练任务 3 后的分布，是通过对任务 1 和任务 2 的相似性损失及数据集计算得到的 $\mu_{i}$ 求平均后，得到的均值 $\mu_{i}$ 的统计分布。
在不使用 EWC 的情况下，三个任务后得到的 $\mu_{i}$ 的三个分布之间差异不大，如第一个图所示，参数仅与当前任务相关，因为 $\mu_{i}$ 仅显示参数对当前任务的重要性。然而，使用 EWC 时，较大 $\mu_{i}$ 的比例显著增加，这表明网络中存在更多重要参数，这些参数不仅对当前任务重要，对先前任务也很重要。同时，小值比例的下降也表明网络的冗余度在降低，越来越多的参数对提高融合性能起到重要作用。

图 20 给出了使用和不使用 EWC 时结果的直观定性比较。

在这里插入图片描述

图20. 中间融合结果。从左到右：(a) 在任务1上训练模型后的融合结果；(b)和©：在不使用弹性权重巩固（EWC）的情况下，在任务2和任务3上训练模型后的融合结果；(d)和(e)：在使用弹性权重巩固（EWC）的情况下，在任务2和任务3上训练模型后的融合结果。

在对任务 1 和任务 2 进行模型训练后，使用和不使用 EWC 的模型在多模态和多曝光图像融合上都取得了令人满意的结果。由于尚未对任务 3 进行训练，多聚焦图像融合的结果显示边缘模糊，如图 20（a）、（b）和（d）中任务 3 的结果所示。然而，在对任务 3 进行模型训练后，结果变得更清晰，如图 20（d）和（e）中任务 3 的结果所示。当不使用 EWC 训练模型时，任务 2 的性能下降，例如整个图像的亮度降低。此外，在图 20（b）和（c）中任务 1 的结果之间可以观察到明显差异。使用 EWC 后，这两个问题得到了缓解，如图 20（d）和（e）所示。

5.2 不同任务相互促进的统一模型

在 U2Fusion 中，我们使用 EWC 不断从新任务中学习。通过这种方式，统一模型能够融合多种类型的源图像。因此，使用统一的参数，U2Fusion 从单个任务中学到的信息可以促进其他任务。

为了验证这一点，我们为每个任务训练一个单独的模型，这样不同任务之间就不会发生交互。融合结果如图 21 所示。
在这里插入图片描述

图21. 统一模型中不同任务相互促进的示意图。从上到下依次为：源图像、针对每个融合任务训练单独模型得到的融合结果，以及U2Fusion的融合结果。从左到右的图像分别来自TNO、RoadScene（第二列和第三列）、哈佛、文献[41]中的数据集、EMPA HDR和Lytro数据集。

尽管多模态和多聚焦图像融合与多曝光图像融合不同，但多模态和多聚焦图像也有过曝光区域，从前三列的可见光图像和最后一列的远聚焦图像中可以明显看出。使用已经在多曝光图像融合上进行训练的统一模型，U2Fusion 在这些过曝光区域的表现更好，比单独训练的模型表示更清晰。另一个例子是在多曝光图像融合的结果中，即第六列。
源图像中突出显示的区域与多聚焦图像相似。由于模型已经从多聚焦图像融合中学习，U2Fusion 的结果比单独训练的模型显示出更清晰、更锐利的边缘。因此，通过整合多个任务的优势，U2Fusion 不仅对多种类型的源图像具有很强的泛化能力，而且对同一类型源图像中的多种区域也具有很强的泛化能力。因此，统一模型可以实现不同融合任务的相互促进。

5.3关于自适应信息保留程度的消融研究

为了验证自适应信息保留程度的有效性，我们进行了实验，将 $\omega_{1}$ $\omega_{2}$ 直接设置为 0.5。在六个数据集上的对比结果如图 22 所示。
在这里插入图片描述

图22. 我们的方法在没有（第一行）和有（第二行）自适应信息保留程度时的定性对比结果。从左到右：来自TNO、RoadScene、哈佛、文献[41]中的数据集、EMPA HDR和Lytro数据集的图像对的融合图像。

第一行的结果是在 $\omega_{1}$ 和 $\omega_{2}$ 固定为 0.5 时得到的，第二行是 U2Fusion 的结果。在多模态图像融合中，没有自适应信息保留程度的结果在细节表现上更差，如云层边缘、吉普车纹理、网的细节和结构信息。在多曝光图像融合中，在过曝光区域差异明显。没有自适应程度时，这些区域看起来仍然过曝光，如花朵、窗户和太阳。这种现象在多聚焦图像融合的结果中最为明显。当 $\omega_{1}$ 和 $\omega_{2}$ 直接设置为 0.5 时，网络无法区分聚焦和散焦区域。因此，结果边缘模糊，而 U2Fusion 生成的结果则清晰得多。

6.结论

在本研究中，我们提出了一种新颖的统一无监督端到端图像融合网络 U2Fusion，以解决多种融合问题。首先，获得自适应信息保留程度，作为源图像中信息量的度量，从而在统一框架下解决不同任务。特别是，自适应程度使网络能够被训练来保持融合结果与源图像之间的自适应相似性，因此无需真实标签。此外，我们解决了灾难性遗忘问题以及存储和计算问题，训练出适用于多种问题的单一模型。这个单一模型能够高质量地解决多模态、多曝光和多聚焦图像融合问题。定性和定量结果验证了 U2Fusion 的有效性和通用性。此外，我们基于 FLIR 视频发布了新的对齐红外和可见光图像数据集 RoadScene，为图像融合基准评估提供了新的选择。