1.摘要
图像融合作为一种替代解决方案,不仅可以从多个图像中生成一张高质量的图像,还可以从单个退化图像中进行图像恢复。图像融合的本质是整合源图像中的互补信息或最佳部分。目前的融合方法通常需要大量的配对样本或复杂的损失函数和融合规则来训练监督或无监督模型。本文提出了一种强大的图像分解模型,用于融合任务,通过自监督表示学习,命名为DeFusion。DeFusion可以将源图像分解为特征嵌入空间,其中可以分离出共有特征和独特特征,而无需任何配对数据或复杂的损失函数。因此,在分解阶段通过共同训练的重建(投影)头,甚至无需任何微调,即可在嵌入空间内实现图像融合。得益于自监督学习的发展,我们可以通过一种简单但粗暴的预文本任务训练模型学习图像分解能力。预训练模型允许学习非常有效的特征,具有良好的泛化能力:DeFusion是一个统一的通用框架,使用与图像融合无关的数据集进行训练,并可以直接应用于各种图像融合任务。广泛的实验证明,所提出的DeFusion在不同的图像融合任务中可以达到与最先进方法(无论是监督还是无监督方法)相当甚至更好的性能。
2.引言
场景感知是机器视觉的一个长期目标,其中场景由多个硬件传感器进行数字化。由于硬件限制,每个传感器一次只能捕捉到场景的部分信息。为了准确有效地表示场景,图像融合被推动前进,以整合同一场景中多个源视图的互补特征,从而生成高质量的图像用于下游的高级任务或人类感知。例如,多曝光融合(MEF)利用多个低动态范围(LDR)图像获得单个高动态范围(HDR)图像;多焦点融合(MFF)将具有不同焦点区域的多个图像合并为单个全焦图像。图像融合方法中的一个关键步骤是有效地表示源图像。在早期,一些经典的特征表示和分解方法被引入到图像融合中,例如小波、金字塔、保边滤波、稀疏编码和字典学习等。从信号处理的角度出发,这些手动设计的特征表示方法对图像的语义知识理解不足,限制了这些模型的通用性。
近年来,深度学习被引入以解决图像融合的限制,并推动图像融合研究的前沿。在早期的工作中,研究人员将神经网络简单地视为一个优化器,用于建模源图像与目标融合结果之间的关系,我们将这种框架称为“通过监督学习直接融合”,如图1a所示。显然,这些模型存在一个主要缺陷:在某些情况下(如红外-可见光图像融合),获取成对的源图像和地面真实融合图像将会很困难,甚至不可能。
- 另一种解决方案是放弃监督信息,设计一些辅助损失(如一致性损失)来保持融合图像与源图像之间的一致性;
- 或者利用经过预训练网络(如AutoEncoder )的语义瓶颈层来执行融合,如图1b所示。尽管这些进展扩展了适用的场景,但它们仍然存在一个严重的缺陷:它们的性能严重依赖于人类对辅助损失和融合规则的设计。
为了解决上述问题,我们提出了一种自监督学习的图像融合框架,称为DeFusion,无需复杂的损失函数或融合规则,如图1c所示。我们可以从图像融合的定义中得出,图像融合的本质是将多个源图像的互补信息集成起来。因此,如果我们能够将源图像分解为独特的组成部分和所有图像共享的公共组成部分,只需将这些组成部分进行简单的组合,就可以生成目标融合图像。
剩下的问题是:如何在没有任何监督的情况下分解源图像以获取独特和公共的组成部分?
给定源图像,我们很难获得监督信息来指导独特和公共组成部分的预测。在本文中,我们设计了一个名为“共同和独特分解(CUD)”的预训练任务,在自我监督学习框架下进行图像分解。我们致力于将多个源图像分解为独特和公共的特征表示,以完成无监督的图像融合(即基于分解的融合)。
如图2所示,我们设计了一个特定的图像增强策略,将原始场景x的一些补丁替换为噪声,生成两个“源图像” x 1 和 x 2 x^1和x^2 x1和x2。然后,它们被输入到分解网络DeNet中,得到共同特征 f c f_c fc,以及对应于 x 1 x^1 x1和 x 2 x^2 x2的独特特征 f u 1 f^1_u fu1和 f u 2 f^2_u fu2。获得嵌入特征后,我们使用共同投影头 P c P_c Pc和独特投影头 P u P_u Pu生成源图像 x 1 x_1 x1和 x 2 x_2 x2的共同和独特图像(部分)。在特定的图像增强策略下,我们可以轻松生成投影的共同和独特图像的监督信息。此外,组合特征 f c 、 f u 1 和 f u 2 f_c、f^1_u和f^2_u fc、fu1和fu2还被输入到重构投影头 P r P_r Pr中,以重构原始场景x。在推理阶段,我们可以将源图像分解为共同和独特的语义表示,并从组合特征中重构融合图像,如图3所示。通过这种方式,分解的共同和独特特征的组合为融合图像提供了可解释的信息,并且避开了开发复杂的损失函数或融合规则的困难。
总之,我们的贡献可以总结如下:
- (i) 我们提出了一种基于自我监督学习框架的新型图像融合方法DeFusion,通过对源图像进行分解实现。
- (ii) 我们设计了一种名为CUD的预训练任务,用于图像融合,它不依赖于现有的监督图像融合数据集、复杂的损失函数和融合规则。
- (iii) 提出的DeFusion仅使用COCO数据集进行训练,并且可以作为统一而通用的框架应用于各种图像融合任务,无需进一步的微调或引入额外的融合规则。它在各种类型的融合任务中取得了与最具竞争力的图像融合方法(包括监督方法)相当或甚至更好的性能。
3.方法
3.1 Self-supervised Learning for Image Fusion
自监督学习流程。假设我们有一个未标记的图像数据集 D。对于数据集中的每个图像 x ∈ R H × W × 3 x ∈ R^{H×W×3} x∈RH×W×3,我们通过一组图像变换 T 对 x 应用随机数据增强,生成扭曲的视图 x i x^i xi。扭曲的视图将被输入到卷积网络中,以获得相应的嵌入表示。为了生成强大的嵌入表示,卷积网络需要在解决预训练任务时进行训练,例如预测图像旋转、图像上色和拼图。通过预训练的预训练任务后,嵌入表示可以用于下游任务。
嵌入表示(embedding representation)是指将输入数据(例如图像、文本或其他类型的数据)映射到一个低维特征空间的表示形式。在深度学习中,嵌入表示通常由一个神经网络模型生成,该模型通过学习从原始数据到嵌入空间的映射关系。嵌入表示的目标是在保留原始数据的重要信息的同时,减少数据的维度,并且使得相似的数据在嵌入空间中更加接近,不相似的数据则更加远离。
通过自监督学习进行图像融合。根据获取源图像的传感器类型,我们可以进一步将图像融合分为单模态融合和多模态融合。对于单模态融合,观察图像是由相同类型的传感器生成的,但具有不同的设置。对于多模态融合,源图像来自具有不同成像机制的不同类型传感器,例如红外-可见光融合。无论是单模态还是多模态情况下,虽然源图像存在明显差异,但它们都是从同一场景转换而来,代表着场景的不同(互补)部分。此外,图像融合的目标是保留多个输入的生动信息以生成融合图像。原始场景 ↠ 源图像 ⇒ 融合图像的过程类似于自监督学习中的嵌入表示流程。因此,类似于自监督学习流程,我们将源图像指定为表示扭曲视图的输入,这些输入将通过 ϕ θ ( ⋅ ) ϕ_θ(·) ϕθ(⋅) 提取嵌入表示,然后使用投影头生成最终的融合图像。接下来,我们将介绍如何实践原始场景 ↠ 源图像 ⇒ 融合图像的自监督学习方法。
3.2 Details of CUD Pretext Task
在典型的自监督学习范式中,通过在一些预训练任务上训练,学到的嵌入表示具有强大的表征能力,并可以通过有限的监督进行微调,用于下游任务。然而,对于图像融合任务来说,在某些情况下并不总是有可用的监督信息。因此,我们希望在预训练之后就能获得融合结果,而无需额外的监督信息进行微调。
受到这些观察的启发,我们精心设计了一个特定的预训练任务,即常见和独特分解(CUD),用于图像分解和图像融合。CUD任务遵循了数据融合的普遍认可定义,以模拟融合过程,其中图像融合的目标是将不同源图像的互补信息合并成一个合成图像。对于每个源图像,它与其他源图像共享一部分场景信息,同时保留一些独特信息。因此,CUD预训练任务将强制每个源图像被分解为两个部分:独特特征和共同特征。在预训练之后,获得的共同和独特嵌入可以直接用于图像融合任务。
-
如第3.1节所讨论的那样,未标记的图像 x x x对应于图像融合中的原始场景。需要注意的是,我们推测图像融合中的场景包含了最全面的信息,而每个观察到的降质图像 x i x_i xi只能反映原始场景的一部分。在CUD中,我们使用随机遮罩 M i M_i Mi和高斯噪声n来模拟降质变换T: x i = M i ( x ) + M i ˉ ( n ) , ( 1 ) {x}^i = M_i(\boldsymbol {x}) + \bar{M_i}(n), \quad(1) xi=