SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion _

本文提出了一种压缩分解网络（SDNet）来实现实时多模态和数字摄影图像融合。首先，我们一般将多个融合问题转化为梯度和强度信息的提取和重建，并相应地设计一种通用形式的损失函数，该损失函数由强度项和梯度项组成。对于梯度项，我们引入了自适应决策块，根据像素尺度的纹理丰富度来决定梯度分布的优化目标，从而引导融合图像包含更丰富的纹理细节。对于强度项，我们调整每个强度损失项的权重，以改变来自不同图像的强度信息的比例，从而使其能够适应多个图像融合任务。其次，我们将压缩和分解的思想引入到图像融合中。具体来说，我们不仅考虑从源图像到融合结果的压缩过程，还考虑从融合结果到源图像的分解过程。由于分解图像的质量直接取决于融合结果，因此它可以迫使融合结果包含更多场景细节。实验结果证明了我们的方法在各种融合任务中的主观视觉效果和定量指标方面优于最先进的方法。此外，我们的方法比最先进的方法要快得多，可以处理实时融合任务。

关键词图像融合 · 实时 · 自适应 · 比例 · 挤压分解

1 引言

由于硬件设备和光学成像的限制，单一传感器或单一拍摄设置下获得的图像往往只能捕捉场景中的部分细节。例如，通过捕获可见光生成的图像通常只能承受有限的照明变化并具有预定义的景深。此外，拍摄时还容易受到天气等外界因素的影响。自然，图像融合可以从不同传感器或不同拍摄设置下获取的图像中提取最有意义的信息，并将这些信息组合在一起生成包含更多纹理内容的单幅图像。由于融合图像的优异性能，图像融合作为一种增强方法被广泛应用于军事探测、医疗诊断、遥感等众多领域（Ma et al. 2017；Xing et al. 2018；Ma et al. 2018）。 2021；沉等人，2015）。

通常，根据源图像成像的差异，图像融合场景可以分为两类。第一类是多模态图像融合。由于成像环境或设备性能等因素，有时单个传感器无法有效描述整个场景。结合多个传感器进行观察是更好的选择。例如，正电子发射断层扫描（PET）可以产生反映身体代谢状态的图像，而磁共振成像（MRI）可以提供器官和组织的良好结构纹理（Liu et al. 2017）。红外图像可以区分目标和背景，而可见光图像包含更多纹理细节（Ma et al. 2016）。第二类是数字摄影图像融合。由于技术的限制，传感器通常无法在单一设置下描述场景中的所有内容。具体来说，很难让不同景深的所有物体在一张图像中全部对焦（Ma et al. 2020）。此外，图像有时会出现曝光不足和曝光过度等不适当的曝光（Hayat 和 Imran 2019；Goshtasby 2005）。在这种情况下，结合不同拍摄场景下的图像可以更全面地描述场景。图1中提供了一些示例来更直观地说明这两类图像融合场景。

近年来，研究人员提出了多种解决图像融合问题的方法，大致可分为两类。第一类是传统的图像融合方法，通常通过设计空间域或变换域的活动水平测量和融合规则，利用相关的数学变换来实现融合（Li et al. 2012；Zhao et al. 2019；沉等人，2014；保罗等人，2006；第二类是基于深度学习的方法。此类方法通常通过构造目标函数来约束融合图像，使其具有所需的分布特征。由于神经网络强大的非线性拟合能力，此类方法通常可以取得更好的融合结果（Ma et al. 2019；Prabhakar et al. 2017；Liu et al. 2017；Lai and Fang 1998）。

尽管现有方法在大多数情况下取得了可喜的结果，但仍有几个方面需要改进。首先，现有的传统方法通常需要手动设计活动水平测量和融合规则，由于源图像的多样性，这变得复杂。这也限制了融合结果，因为不可能以一种手动设计的方式考虑所有因素。其次，将深度学习应用于图像融合的最突出障碍是缺乏用于监督学习的真实融合图像。有一些方法通过手动构建ground truth来解决这个困难，但ground truth通常是不准确的，并且会设定学习的上限。第三，如前所述，图像融合任务之间存在较大差异。在多模态图像融合中，源图像由不同的传感器捕获。相反，数码摄影图像融合中的源图像是由同一传感器在不同的拍摄设置下拍摄的。因此，现有方法无法按照同一思想解决不同的图像融合问题。最后，由于参数数量较多或融合规则复杂度较高，现有方法通常在运行效率上缺乏竞争力。

为了解决上述挑战，我们设计了一个压缩分解网络，称为 SDNet，来实时实现多模态图像融合和数字摄影图像融合。我们的设计主要从以下两个方面展开。

一方面，我们将多模态图像融合和数字摄影图像融合建模为强度和梯度信息的提取和重建。我们的观点是，图像中包含的信息可以分为梯度信息和强度信息，其中梯度信息表示纹理结构，而强度信息表示图像的整体亮度分布。基于这个思想，我们为上述两类图像融合场景设计了一个通用形式的损失函数，它可以迫使网络提取梯度和强度信息，并通过两种不同的规则将它们融合。具体来说，对于梯度信息，我们认为除了噪声之外，其他梯度较强的区域都是清晰的或者有大量的纹理内容。基于这一观察，我们提出了一种自适应决策块，它首先使用高斯低通滤波器来减少噪声的影响，然后根据梯度的水平对每个像素进行评分，从而指导融合图像的梯度分布以更大的梯度强度来近似源像素。对于强度信息，由于不同的融合任务对强度信息保存的偏好不同，我们通过调整各强度损失项的权重比例，在融合结果中选择更有效、更有趣的强度信息进行保存。利用这两种策略提取和重构梯度和强度信息，可以很好地应用于多模态图像融合和数字摄影图像融合。

另一方面，我们提出了一种快速 SDNet 来实现更有效的图像融合。以往的方法只考虑了源图像到融合结果的挤压过程，那么融合结果是否可以分解来重新生成源图像呢？虽然融合过程中难免会丢弃部分信息，但要求分解结果与源图像保持一致，会尽可能减少信息损失。换句话说，这种分解一致性将迫使融合结果包含更多场景细节，因为分解结果的质量直接取决于融合结果。基于这个动机，我们设计了一个挤压分解网络，它包含两部分：挤压和分解。在挤压阶段，源图像被融合成单个图像。在分解阶段，融合结果被重新分解为源图像。同样，这种挤压分解网络也适用于多模态和数字摄影图像融合。

我们的方法具有以下优点。首先，我们的方法不需要设计活动水平测量和融合规则，可以实现端到端的融合。其次，我们的网络不需要监督学习的ground truth，而是需要弱约束的无监督学习。第三，我们的方法不仅适用于多模态成像获得的图像的融合，也适用于数字摄影获得的图像的融合。值得注意的是，由于使用1×1卷积核以及对特征通道数量的控制，我们网络中的参数数量被限制在一定范围内。因此，我们的方法可以实现高速融合。

我们的贡献包括以下五个方面：

– 我们提出了一种新的端到端图像融合模型，可以很好地实现多模态图像融合和数字摄影图像融合。

– 我们设计了一种特定形式的损失函数，它可以迫使网络生成预期的融合结果。

– 我们提出了梯度损失项的自适应决策块，它可以减少噪声的影响并有效引导融合结果包含更丰富的纹理细节。

– 我们设计了一个挤压分解网络，它可以同时专注于融合和分解两个阶段，从而使融合结果包含更多的场景细节。

– 我们的方法可以针对多个融合任务实时执行图像融合。该代码公开于：https://github.com/HaoZhang1018/SDNet。

该手稿的初步版本出现在Zhang等人中. （2020）。主要的新贡献包括以下两个方面。首先，我们设计了一个自适应决策块来约束梯度信息，而不是之前的手动比例设置策略。一方面，减少了需要手动调整的超参数数量。另一方面，它使我们的方法表现更好，特别是在多焦点图像融合中。其次，我们进一步改进了网络，不仅考虑了融合过程，还考虑了分解过程。这种分解一致性可以使融合后的图像包含更多的场景细节，从而具有更好的视觉效果。本文的其余部分组织如下。第 2 节描述了一些相关工作，包括对现有传统和基于深度学习的融合方法的概述。第3节提供了总体框架、损失函数和网络架构设计。4，我们给出了详细的实验设置，并通过定性和定量比较将我们的方法与公开数据集上的几种最先进的方法进行比较。此外，本节还进行了效率对比实验、消融实验、分解可视化、红外和RGB可见光图像融合、序列图像融合、与初步版本的比较以及应用验证（Zhang et al. 2020）。结论在第 5 节中给出。

2 相关工作

随着各种方法的提出，图像融合领域已经取得了长足的进步。现有方法可大致分为传统方法和基于深度学习的方法。

传统方法通常利用相关的数学变换和手工设计融合规则来实现图像融合。 Piella (2003) 概述了使用多分辨率分解的图像融合技术，该技术基于所有不同的输入图像进行多分辨率分割，并且该分割随后用于指导红外和可见光图像融合过程。 Hayat 和 Imran (2019) 提出了一种使用密集 SIFT 描述符和引导滤波器的无重影多重曝光图像融合技术，该技术可以使用普通相机生成没有伪影的高质量图像。Paul等人（2016）提出了一种多聚焦多曝光图像融合的通用算法，该算法基于在每个像素位置使用最大梯度幅度混合输入图像亮度分量的梯度，然后使用基于Haar小波的图像重建技术获得融合的亮度。傅等人。 (2019)将基于局部梯度约束的更精确的空间保留引入到遥感图像融合中，可以充分利用PAN图像中包含的空间信息，同时保留光谱信息。因此，他们可以获得非常有希望的融合结果。

与传统方法相比，基于深度学习的方法可以从大量数据中学习具有良好泛化能力的融合模型。在红外与可见光图像融合领域，Ma等人。 (2019) 提出了一种名为 FusionGAN 的端到端模型，该模型在 GAN 的基础上生成具有主导红外强度和附加可见梯度的融合图像。随后，他们基于 FusionGAN 引入了双判别器（Ma et al. 2020）、细节损失和目标边缘增强损失（Ma et al. 2020），以进一步增强融合结果中的纹理细节。在多重曝光图像融合领域，Prabhakar 等人。 (2017)提出了一种无监督深度学习框架，利用无参考质量度量作为损失函数，可以产生令人满意的融合结果。徐等人。 (2020) 引入了一种基于具有自注意力机制的 GAN 的端到端架构，并取得了最先进的性能。在医学图像融合中，Liu 等人。（2017）使用神经网络生成权重图，该权重图集成了两个源图像的像素活动级别，而融合过程通过图像金字塔以多尺度方式进行。随着深度学习的应用，多焦点图像融合领域也取得了长足的进步。特别是，Ma 等人。 (2020)提出了一种无监督网络来生成用于融合的决策图，该决策图可以指示像素是否被聚焦。深度网络也推动了遥感图像融合的进步。周等人。 (2019)设计了一种由编码器网络和金字塔融合网络组成的深度模型来融合低分辨率高光谱和高分辨率多光谱图像，通过这种逐步细化提高了空间信息的保存。马等人。 (2020)提出了一种无监督的全色锐化深度模型，以充分利用全色图像中的纹理结构。他们通过使用两个独立的判别器将全色锐化转变为多任务学习，这两个判别器很好地保留了光谱和空间信息。我们的初步版本PMGI（Zhang et al. 2020）提出了一种基于梯度和强度信息比例维护的新型图像融合网络，可以实现多种图像融合任务。然而，通过调整权重来改变梯度信息的维护比例，会造成一定程度的纹理结构损失或模糊，从而降低融合结果的质量。因此，在本文中，我们改进 PMGI 以实现更好的融合性能。

3 方法

在本节中，我们详细介绍我们的 SDNet。我们首先介绍总体框架，然后给出损失函数的定义。最后，我们提供了网络的详细结构。请注意，假设源图像已在我们的方法中预先注册（Ma et al. 2021）。

3.1 总体框架

图像融合的思想是从源图像中提取并组合最有意义的信息。一方面，对于不同的图像融合任务，源图像中包含的最有意义的信息是不同的。由于对于这些有意义的信息没有相同的标准，现有的方法通常很难迁移到其他融合任务中。因此，需要开发一种通用模型来完成多种类型的图像融合任务。另一方面，在融合图像中保留源图像中尽可能多的信息非常重要。我们的方法是基于上述两个观察而设计的，这是一个端到端模型。

首先，我们将有意义的信息定义为两类：梯度信息和强度信息。对于任何图像来说，其最本质的元素就是像素。像素的强度可以代表整体的亮度分布，可以反映图像的对比度特性。像素之间的差异构成了梯度，可以表示图像中的纹理细节。因此，多模态图像融合和数字摄影图像融合可以建模为这两种信息的提取和重建，如图2所示。梯度和强度信息的提取和重建取决于损失函数。在我们的模型中，我们提出了针对不同图像融合任务的通用损失函数，其中包括在融合图像和两个源图像之间构造的梯度损失项和强度损失项。尽管使用强度损失和梯度损失（Ma et al. 2019, 2020）是特定图像融合任务（Szeliski et al. 2011）中的常见做法，但将它们扩展到其他图像融合任务并非易事。为此，我们针对梯度信息和强度信息设计的重构规则有很大不同。对于梯度信息重建，我们引入了一个作用于梯度损失项的自适应决策块。自适应决策块首先使用高斯低通滤波来减少噪声对决策过程的影响，然后根据梯度丰富度评估相应像素的重要性，从而生成像素尺度的决策图：引导融合图像中的纹理以更丰富的纹理来近似源像素中的纹理。因此，融合图像中包含的纹理细节与源图像对应区域中最强的纹理细节一致。对于强度信息重建，我们采用比例设置策略。具体来说，我们调整融合图像与两幅源图像之间的强度损失项的权重比，以满足不同任务对强度分布的要求。例如&