目录
摘要:
本研究提出了一种基于跨域远程学习和 Swin Transformer 的新型通用图像融合框架,称为 SwinFusion。一方面,设计了注意力引导的跨域模块,以实现互补信息和全局交互的充分整合。更具体地说,所提出的方法涉及基于自注意力的域内融合单元和基于交叉注意力的域间融合单元,它们挖掘并集成同一域内和跨域的长依赖关系。通过远程依赖建模,网络能够全面实现特定领域的信息提取和跨领域互补信息集成,并从全局角度保持适当的表观强度。特别是,我们将移位窗口机制引入自注意力和交叉注意力中,这使得我们的模型能够接收任意大小的图像。另一方面,多场景图像融合问题被推广到具有结构维护、细节保留和适当强度控制的统一框架。此外,由SSIM损失、纹理损失和强度损失组成的精心设计的损失函数驱动网络保留丰富的纹理细节和结构信息,并呈现最佳的表观强度。多模态图像融合和数字摄影图像融合的大量实验证明了我们的 SwinFusion 与最先进的统一图像融合算法和特定任务替代方案相比的优越性。实现代码和预训练权重可以在 https://github.com/Linfeng-Tang/SwinFusion 访问。
索引术语——跨域远程学习、图像融合、Swin transformer。
一、引言
由于硬件设备的限制,单一传感器或单一拍摄设置捕获的信息无法全面表征成像场景[1]。一方面,不同类型的传感器通常从多个角度捕获特定信息。 例如,红外传感器收集热辐射信息,强调突出的目标。可见光传感器通过捕捉反射光信息[2]生成具有丰富纹理细节的数字图像。近红外传感器可以捕获可见图像中可能丢失的补充细节[3]。此外,在医学成像领域,结构系统(例如磁共振成像(MRI)和计算机断层扫描(CT))通常提供结构和解剖信息[4]。相比之下,正电子发射断层扫描 (PET) 等功能系统可以提供有关血流和代谢变化的功能信息 [5]。另一方面,具有不同拍摄设置的传感器通常从成像场景中获取的信息有限。更具体地说,具有不同 ISO 和曝光时间的相机只能捕获动态范围内的信息,而不可避免地会丢失动态范围之外的信息。同样,具有特定焦距的相机仅捕获景深(DOF)内的物体[6]。值得一提的是,不同传感器或多种拍摄设置下捕获的图像通常包含互补信息,这鼓励我们将这些互补特征合并到单个图像中。因此,图像融合技术诞生了。根据成像设备的不同,图像融合可分为多模态图像融合和数字摄影图像融合。图1展示了这两类图像融合场景的示意图。具有更好场景表示和视觉感知的单个融合图像有利于后续的实际视觉应用,例如目标检测、跟踪、语义分割、场景理解等。 [7]-[9]。
在过去的几十年里,人们提出了许多图像融合技术,这些技术大致可以分为两类,即特定任务的图像融合方案[11]-[14]和通用图像融合算法[10]、[15]、 [16]。特定任务图像融合和通用图像融合都可以进一步分为四类,包括传统框架[17][19]、基于卷积神经网络(CNN)的框架[20]、[21]、自动编码器(AE)-基于框架[22]、[23]和基于生成对抗网络(GAN)的框架[24][26]。尽管上述框架可以产生相当多的融合结果,但它们都不能充分挖掘和整合领域内和跨领域的全球背景。 特别地,我们假设在本文中由不同传感器或在多种光学设置下拍摄的图像属于不同的领域。一方面,传统框架通常在空间域[17]或变换域[19]、[27]中实现互补信息聚合,但它们都不能在非相邻像素之间交换信息。因此,传统的框架无法感知全球环境。另一方面,基于CNN、AE和gan的框架的基本组成部分是卷积层,它们只能在接受场内挖掘交互。然而,这些框架在利用局部信息进行图像融合的同时,不能利用域内或域间的远程依赖关系来进一步改善融合结果。
作为 CNN 的替代方案,Transformer [28] 设计了一种自注意力机制来捕获上下文之间的全局交互,并在几个视觉问题中表现出了良好的性能 [29]-[33]。特别是,图像融合社区还引入了 Transformer 来对域间长程依赖性进行建模,并提供有竞争力的融合结果[34][37]。尽管如此,仍然存在一些需要解决的缺点。首先,现有的基于 Transformer 的方法仅探索域内交互,而未能集成跨域上下文,而这对于图像融合任务至关重要。 其次,用于图像融合的视觉 Transformers 通常要求输入图像可以重塑为固定尺寸(例如 256 × 256),这会导致融合图像中的场景失真。 第三,现有的融合Transformers是针对特定的融合场景而设计的,没有考虑不同融合任务之间的内在联系。 为了解决上述挑战,我们设计了一种基于跨域远程学习和 Swin Transformer 的通用图像融合框架,用于多模态图像融合和数字摄影图像融合。我们的设计主要从以下几个方面展开。 一方面,我们将所有图像融合场景建模为结构维护、纹理保留和适当的强度控制。特别是,我们针对所有融合问题统一了由 SSIM 损失、纹理损失和强度损失组成的损失函数形式。除了强度损失之外,所有子损失项都遵循不同融合任务的相同建模方式,强度损失是针对特定融合任务量身定制的,以获得更合适的强度感知。另一方面,我们设计了一个联合 CNN-Transformer 图像融合框架,以充分挖掘源图像中的局部和全局依赖性。基于CNN的浅层特征提取单元挖掘源图像中的局部信息。 基于 Transformer 的深层特征提取单元探索浅层特征之间的全局交互,并生成包含高级语义信息的深层特征。然后,精心设计的注意力引导跨域融合模块有效地整合了深层特征中的域内和域间交互。具体来说,域内融合单元通过自注意力机制聚合同一域中的全局上下文。域间融合单元对多个源图像之间的远程依赖关系进行建模,并通过交换来自不同域的查询、键和值来实现全局特征融合。最后,基于 Transformer 的深度特征重建单元和基于 CNN 的融合图像重建单元利用全局和局部信息来重建具有卓越视觉感知的融合图像。 值得一提的是,自注意力和交叉注意力都是通过移位窗口机制(即 Swin Transformer [38])实现的,这使得我们的框架能够处理任意大小的输入图像。总而言之,这项工作的主要贡献可以概括如下:
• 我们提出了一种用于多模态图像融合和数字摄影图像融合的CNN-Transformer 联合融合框架。所提出的框架可以充分利用局部和全局信息以实现更好的互补特征集成。
• 设计了基于自注意力的域内融合单元和基于交叉注意力的域间融合单元,分别对同一域内和跨域的远程依赖关系进行建模和集成。
• 多模态图像融合和数字摄影图像融合都被推广到结构维护、纹理保存和适当的强度控制。 特别是,定义了统一的损失函数形式来约束所有图像融合问题。 • 大量实验证明,与多模态图像融合和数字摄影图像融合方面最先进的特定任务和通用融合算法相比,我们的框架具有优越性。
本文的组织结构如下。
第二部分总结了与所提出的框架相关的一些研究,包括特定任务图像融合、通用图像融合和视觉 Transformer。第三节详细讨论了我们的 SwinFusion。在第四节中,我们提出了多模态图像融合和数字摄影图像融合的一些定性和定量结果,并进行了消融研究以验证具体设计的有效性。 第五节给出了一些结论性意见。
二、相关工作
图像融合和视觉 Transformer 是与我们的方法最相关的两种技术,在这里我们回顾一些代表性研究来介绍它们的发展。
A.特定任务的图像融合方法
作为一种重要的图像增强技术,图像融合近年来持续引起越来越多的关注。主流的图像融合方案,特别是针对特定任务的图像融合,可以分为以下四类框架。
传统图像融合框架:传统的融合框架通常在空间域和变换域实现图像融合。一方面,在空间域中集成像素级信息是传统图像融合的主要类型之一。 GTF[17]将红外和可见光图像融合定义为空间域中的整体强度保持和纹理结构保留,并通过优化目标函数产生融合图像。阿瓦德等人。 开发了一种在空间域中的自适应近红外和可见光融合方案,用于可见图像细节增强[3]。 此外,刘等人。设计了一种基于形态成分分析(CS-MCA)的卷积稀疏模型,以实现像素级的医学图像融合[39]。他们还将局部特征描述符(即 Dense SIFT)引入多焦点图像融合任务中,以执行活动水平测量并匹配不同源图像之间的未配准像素 [40]。另一方面,研究人员也尝试通过相关数学变换将源图像映射到变换域,并在变换域中手动设计融合规则以实现图像融合。 马等人。采用结构路径分解技术将源图像转换为三个概念上独立的分量,即信号强度、信号结构和平均强度[41]。然后,通过分别合并这三个分量来实现多重曝光图像融合。 此外,李等人。结合稀疏特征矩阵分解和形态滤波技术,提出了一种基于变换域的多焦点图像融合算法[42]。
基于CNN的图像融合框架:近年来,卷积神经网络(CNN)逐渐成为图像融合的主要主力,并表现出显着的优势。参与图像融合的 CNN 的一种形式采用预先训练的网络来实现活动水平测量并为手工制作的特征生成权重图 [5]、[43]。但整个融合过程仍然基于传统的融合框架,例如拉普拉斯金字塔[5]和引导过滤[43]。另一种基于 CNN 的图像融合框架是利用 CNN 以端到端的方式学习源图像和融合图像(或焦点图)之间的直接映射 [2]、[44]。各种研究将特定于任务的先验信息集成到基于 CNN 的框架中,以设计损失函数和网络结构。具体来说,Ma 等人。提出了一种α-matte边界散焦模型来精确模拟散焦扩散效果并生成用于训练多焦点图像融合网络的真实数据[45]。为了解决聚焦/散焦边界周围模糊水平估计的困难,Li 等人。引入了深度回归对学习,直接将整个图像转换为二值掩模,无需任何补丁操作[46]。赵等人。提出了一种考虑深度线索的深度蒸馏多焦点图像融合方法[47]。他们还关注特征的多样性以提高融合性能[48]、[49]。此外,韩等人。设计了一种用于多重曝光图像融合的深度感知增强网络,其中包含两个独立的模块,分别用于收集内容细节和校正颜色失真[50]。对于可见光和红外图像融合,Long 等人。在CNN[51]的基础上设计了一个结合了ResNet和DenseNet结构优点的聚合残差密集网络。此外,SeAFusion[7]首次将语义约束纳入图像融合建模,并提出梯度残差密集块来提高细粒度细节的描述能力。
基于AE的图像融合框架:同时,研究人员也探索了基于自动编码器的图像融合框架。具体来说,采用在大规模数据集上预训练的自动编码器作为特征提取器和图像重建器,然后针对深层特征设计专门的融合策略来实现图像融合。 DeepFuse [13] 是此类融合框架的先驱。 随后,李等人。引入密集连接[22]和嵌套连接[52]、[53]来增强编码器的特征提取能力。此外,Jian 等人。将注意力机制注入基于 AE 的融合框架中,以强化编码器提取的显着特征[54]。 为了提取具有更大可解释性的特征,Xu 等人。根据基于 AE 的融合框架定制解缠结表示[11]。然而,上述所有方法都采用手工制作的融合策略,例如元素加法[13]、元素权重求和[22]和元素最大值[20]来合并深层特征,这阻碍了融合模型实现他们的最佳表现。为此,徐等人。设计了一种基于像素分类显着性和可解释重要性评估的可学习融合规则[23]。
基于GAN的图像融合框架:生成对抗网络(GAN)即使在没有监督信息的情况下也可以有效地对数据分布进行建模,这与图像融合任务不谋而合。马等人。启发性地将图像融合问题定义为生成器和鉴别器之间的博弈。然后,他们将 GAN 应用于一系列融合任务,例如红外和可见光图像融合[55]、多重曝光图像融合[25]、多焦点图像融合[56]和全色锐化[57]。然而,单一的鉴别器不能考虑到多个域的数据分布。因此,Xu等人提出了双鉴别器条件生成对抗网络(DDcGAN),该网络利用两个鉴别器来约束融合结果的分布。随后,Hung等人设计了一种多生成器多鉴别器条件生成对抗网络(MGMDcGAN)用于医学图像融合[26]。Li等人在基于gan的融合框架中注入了多尺度注意机制,促使生成器和鉴别器更加关注有意义的区域[58],[59]。
B. 一般图像融合方法
特定于任务的融合算法能够利用相关先验来提高融合性能,但它们忽略了不同图像融合任务之间的内在关联。 因此,越来越多的研究人员致力于开发统一的图像融合框架。 MST-SR是第一个通用图像融合框架,通过结合多尺度变换(MST)和稀疏表示(SR)技术来实现互补信息聚合[15]。随后,张等人。 [20]参考DeepFuse[13]设计了第一个用于通用图像融合的卷积神经网络。此外,PMGI[16]将不同的图像融合问题视为梯度和强度的比例维持,以及设计统一形式的损失函数。在 PMGI 的基础上,Zhang 等人。提出了挤压分解网络和自适应决策块以进一步提高融合性能[60]。此外,赵等人。通过学习特定领域和领域通用特征表示,开发了多领域图像融合的通用框架[61]。特别是,考虑到不同的融合场景可以相互促进,Xu等人。通过结合可学习信息测量和弹性权重合并,开发了一种用于多融合任务的统一无监督图像融合模型[10],[62]。
值得强调的是,无论是特定任务融合方法还是通用融合方法都无法充分利用图像的远程交互。换句话说,这些算法仅从局部角度合并互补信息,而无法实现全局信息聚合。
C. Vision Transformer
最近,自然语言处理模型,即 Transformer [28] 在计算机视觉界受到了广泛的关注。有许多基于 Transformer 的模型在各种视觉任务中取得了令人印象深刻的性能,例如视觉识别 [29]、[63]、[64]、目标检测 [30]、[65]、[66]、跟踪 [67] ]–[69]、分割[31]、[70]和图像恢复[32]、[33]、[71]。由于其强大的远程建模能力,Transformer也被引入图像融合中[34]、[35]、[37]、[72]。 VS 等人建立在基于 CNN 的融合框架之上。设计了一种基于 Spatio-Transformer(即 IFT)的多尺度融合策略,该策略同时考虑局部和全局背景[35]。 此外,在基于AE的融合框架的基础上,Fu等人。用 Patch Pyramid Transformer 替换 CNN 架构,从整个图像中提取非局部信息 [37]。
然而,仅由Transformer组成的自动编码器无法有效提取局部信息。为此,赵等人。提出了一种顺序 DenseNet 和双变压器架构(称为 DNDT)来提取局部和全局信息,其中双变压器在融合层之前增强了特征中的全局信息[72]。 此外,曲等人。开发了 TransMEF [34],它将并行 Transformer 和 CNN 架构注入到基于 AE 的融合框架中,并利用自监督多任务学习来实现多曝光图像融合。随后,李等人。提出了一种用于可见光和红外图像融合的卷积引导变压器框架(即CGTF),旨在结合CNN的局部特征和Transformer的远程依赖特征来生成更令人满意的融合结果[73]。此外,Rao 等人。还将Transformer引入基于GAN的融合框架中,以实现可见光和红外图像融合[36]。 然而,上述融合 Transformer 仅仅从同一域中挖掘远程依赖关系(或全局交互)。事实上,跨域的远程依赖关系与图像融合问题更相关。此外,大多数基于 Transformer 的融合算法,例如 IFT [35]、DNDT [72]、TransMEF [34] 和 CGTF [73],只能处理固定尺寸(例如 256 × 256)的输入图像。此外,现有的用于图像融合的视觉Transformer仅解决特定的图像融合问题,而未能在统一的融合框架下同时解决多模态图像融合和数字摄影图像融合场景。因此,我们充分探索了不同图像融合场景之间的共性。然后,将多模态图像融合和数字摄影图像融合统一建模为结构维护、纹理保留和适当的强度控制。此外,设计了注意力引导的跨域融合模块,以有效挖掘和整合融合过程中域内和域间的全局交互。
三.方法论
在本节中,多模态图像融合和数字摄影图像融合被推广到结构信息维护、纹理细节保留和适当的强度控制。我们首先提供总体框架。接下来,给出统一损失函数的设计。
A.总体框架设
I1 ε RH×W ×Cin 和I2 ε RH×W ×Cin 表示来自不同域的两个对齐的源图像,If ε RH×W ×Cout 是具有完整场景表示的融合图像。 H、W 和 Cin 是输入图像的高度、宽度和通道数。 Cout 是融合图像的通道数。所提出的 SwinFusion 旨在通过合并源图像 I1、I2 中的局部和全局互补信息来生成融合图像 If。如图2所示,SwinFusion可以分为三个部分:特征提取、注意力引导的跨域融合和重建。
特征提取:首先,我们从源图像I1和I2中,通过多卷积层HSE(·)提取出浅层特征f1 SF和f2 SF,可以表示为:
卷积层擅长早期视觉处理,从而产生更稳定的优化和更好的结果[74]。它还提供了一种简单而有效的方法来提取局部语义信息并将该信息映射到高维特征空间。浅层特征提取模块由两个具有Leaky Relu激活函数的卷积层组成,其内核大小为3×3,步长为1。
之后,我们从F1 SF和F 2 中提取深层特征F 1 DF和F 2 DF顺丰为:
其中 HDE(·) 是包含 N 个 Swin Transformer 层的深度特征提取单元。 Swin Transformer层的核心架构与域间融合单元一致,下面详细介绍。在这项工作中,N设置为4。
注意力引导跨域融合:在提取具有足够全局语义信息的深层特征后,我们设计了一个注意力引导跨域融合模块(ACFM)来进一步挖掘和聚合内部特征。 - 以及域间全局上下文。
首先,我们设计了一个基于自注意力的域内融合单元,以有效地整合同一域中的全局交互。基于转移窗口机制的注意力是设计域内融合单元的基本组成部分。给定大小为 H × W × C 的特征 F,移位窗口机制首先通过将输入划分为不重叠的 M × M 局部窗口,将输入重塑为 HW M2 × M 2 ×C 特征,其中 HW M2 是总数的窗户。接下来,它对每个窗口分别执行标准的自注意力。对于局部窗口特征 X ∈ RM2×C ,使用跨不同窗口共享的三个可学习权重矩阵 WQ ∈ RC×C 、 WK ∈ RC×C 和 WV ∈ RC×C 将其投影到查询 Q 中,键K 和 V 值由:
然后,注意力函数基本上计算查询与所有键的点积,然后使用 softmax 运算符对其进行归一化以产生注意力分数。注意力机制定义为:
其中 dk 是键的维度,B 是可学习的相对位置编码。参考文献[28],我们将自注意力扩展为多头自注意力(MSA),使注意力机制能够考虑各种注意力分布,使模型从不同角度捕获信息。在实践中,我们并行执行 h 次注意力函数,并将多头自注意力的结果连接起来,其中 h 在我们的工作中设置为 6。接下来,部署由两个带有 GELU 激活层的多层感知器 (MLP) 层组成的前馈网络 (FFN) 来细化 MSA 生成的特征标记。 层归一化 (LN) 始终在 MSA 和 FFN 之后执行,并且残余连接应用于两个模块。因此,局部窗口特征X的域内融合单元的完整过程可以表述为:
其中Z是域内融合单元的输出,X作为输入。前馈网络(FFN)如下:
其中 GELU 是高斯误差线性单位。特别是,Swin Transformer Layer 遵循与域内融合单元相同的处理过程。我们还在图 3 中展示了两个连续的 Swin Transformer 层的框架,以清楚地说明它们的处理过程。值得注意的是,如果不同层的分区是固定的,则本地窗口之间不存在连接。因此,根据文献[33]、[38],我们交替使用常规和移位窗口分区来实现跨窗口连接,其中移位窗口分区意味着将特征在之前移动 (b M 2 c, b M 2 c) 个像素分区。图 4 显示了 Swin Transformer Layer 和域内融合单元中用于计算注意力的移动窗口机制的示例。可以看出,在第 l 层,采用了常规的窗口划分方案,并且在每个窗口内计算注意力。在下一层(即第 l + 1 层)中,窗口分区发生移动,从而产生新的窗口。因此,新窗口中的注意力计算跨越了第1层窗口的边界,提供了它们之间的连接。
继域内融合单元之后,我们还设计了一个基于交叉注意力的域间融合单元,以进一步整合不同域之间的全局交互。 域内融合单元和域间融合单元都遵循相似的基线。主要区别在于,域间融合单元采用多头交叉注意(MCA)而不是 MSA 来实现跨域的全局上下文交换。因此,给定来自不同域的两个局部窗口特征X1和X2,域间融合单元的整个过程定义为:
如方程式所示。 (7),对于来自域 1 的 Q1,它通过对来自域 2 的 K2 和 V2 进行注意力加权来合并跨域信息,同时通过残差连接保留域 1 中的信息,反之亦然。我们的模型部署了 L 个注意力引导的跨域融合模块,由级联的域内融合单元和域间融合单元组成,以交替集成全局域间和跨域交互。为了平衡计算效率和融合性能,我们将L设置为2
在注意力引导的跨域融合模块之后,部署具有空间不变滤波器的卷积层来聚合不同域中的局部信息并增强 SwinFusion 的平移等方差,可以表示为:
其中 F 1 AF 和 F 2 AF 分别表示 ACFM 以 F 1 DF 和 F 2 DF 作为输入聚合的输出特征。 HConv(·) 表示具有空间不变滤波器的卷积层,Concat(·) 表示通道维度中的串联。 FF DF表示融合的深度特征,是特征重建模块的输入。
重建:在完全融合不同领域的互补信息后,我们设计了基于 Transformer 的深度特征重建单元和基于 CNN 的图像重建单元,将融合的深度特征映射回图像空间。首先,部署包含 P Swin Transformer 层的深层特征重建单元 HDR(·),以细化融合的深层特征并从全局角度恢复融合的浅层特征。这个过程可以表示为:
为了充分利用深层特征中的全局上下文来恢复融合的浅层特征,P设置为4。然后,部署基于CNN的图像重建单元HIR(·)来减少通道数并生成融合图像如果 ,则表示为:
融合图像重建单元包含三个卷积层,内核大小为 3 × 3,步长为 1,其中前两层后面是 Leaky Relu 激活函数。
B.损失函数
为了对多模态图像融合和数字摄影图像融合进行统一建模,我们将不同的图像融合问题概括为结构维护、纹理保存和适当的强度控制。因此,我们设计了SSIM损失、纹理损失和强度损失来约束网络。
SSIM损失:考虑到结构相似性(SSIM)指数是最广泛使用的指标,它从光线、对比度和结构三个方面反映图像失真[75],我们采用SSIM损失Lssim来约束之间的结构相似性如果和I1、I2。具体来说,SSIM损失定义为:
其中ssim(·)表示结构相似度运算,衡量两幅图像的相似度。我们认为两个源图像在结构信息方面对融合结果具有相同的贡献。因此,我们在这项工作中设置 w1 = w2 = 0.5。
纹理损失:图像融合的目标之一是将源图像中的纹理细节集成到单个融合图像中。我们观察到源图像中的纹理细节可以通过最大选择策略有效地聚合。因此,纹理损失 Ltext,如式(1)所示。 (12)旨在引导网络保留尽可能多的纹理细节。
其中∇表示Sobel梯度算子,可以测量图像的纹理信息。 |·|代表绝对运算,‖·‖1 表示 l1-范数,max(·) 表示逐元素最大选择。
强度损失:优秀的图像融合算法期望能够根据源图像的全局表观强度信息生成具有适当强度的融合图像。为此,我们设计了以下强度损失 Lint 来指导我们的融合模型捕获适当的强度信息:
其中M(·)是逐元素聚合操作,与具体的融合场景相关。受 IFCNN [20] 的启发,元素级最大选择,即 max(·) 被部署用于可见光和红外图像融合(VIF)、医学图像融合(Med)和多焦点图像融合(MFF)。此外,我们利用逐元素均值聚合,即可见光和近红外图像融合(VIS-NIR)和多重曝光图像融合(MEF)的mean(·)。
最后,我们的融合模型的完整目标函数是方程式中所有子损失项的加权和。 (11) 至等式。 (13):
其中 λ1、λ2 和 λ3 是控制每个子损失项权衡的超参数。
四.实验结果和讨论
在本节中,我们通过定量和定性比较,在多模态图像融合和数字摄影图像融合场景上将 SwinFusion 与几种最先进的算法进行比较。我们首先提供实验配置,然后给出一些实现细节。随后,我们与最先进的替代方案进行定量和定性比较。还对其他视觉任务进行了扩展实验,以证明我们的方法在其他计算机视觉任务中的潜力。最后,我们通过一系列的消融研究验证了具体设计的有效性。
A. 实验配置
数据集:我们在多模态图像融合和数字摄影图像融合方面验证了 SwinFusion。选择可见光与红外图像融合(VIF)、可见光与近红外图像融合(VISNIR)和医学图像融合(Med)三种具有代表性的场景进行多模态图像融合。数字摄影图像融合选择了多曝光图像融合(MEF)和多聚焦图像融合(MFF)两种典型任务。所有融合任务的训练和测试数据均来自公开数据集。 选择包含1083个训练图像对和361个测试图像对的MSRS数据集[76]、[77]1用于训练和评估可见光和红外图像融合任务。我们基于公开可用的 VIS-NIR 场景数据集 [78]2 构建训练和测试数据集。训练集和测试集的数量分别为377和100。医学图像融合的训练和测试数据集基于公开的哈佛医学数据集3。具体来说,我们选择 249 和 20 个图像对用于 PET 和 MRI 图像融合(Med (PETMRI))的训练和测试。 CT和MRI图像融合(Med(CT-MRI))的训练集和测试集的数量分别为163和20。此外,采用MEF数据集[79]4来训练MEF模型,并使用MEF基准数据集[80]5(包含100对不同场景的图像)作为测试集。 MFI-WHU[56]6和Lytro[81]7数据集分别用于MFF的训练和测试,其中Lytro数据集由20对尺寸为520×520像素的彩色多焦点图像组成。
我们为不同的图像融合场景设置不同的测试集大小的原因如下。首先,有些数据集(例如MEFB和Lytro)仅适用于测试不同算法的性能,因此测试集的数量是整个数据集的数量,即MEFB数据集为100,而MEFB数据集为20。 Lytro 数据集。此外,MSRS数据集指定了测试集的数量,即361。由于哈佛医学数据集的数量限制,我们为所有医学图像融合任务随机选择20张测试图像,这与Lytro数据集一致。 此外,从VISNIR场景数据集中随机选取100张测试图像用于可见光和近红外图像融合任务,与MEFB数据集保持一致。
比较算法:我们选择七种最先进的方法,包括四种通用图像融合框架和三种特定于任务的方法作为每个融合任务的比较算法。四种统一图像融合算法是 IFCNN [20]、PMGI [16]、SDNet [60] 和 U2Fusion [10]。 GTF [17]、DenseFuse [22] 和 FusionGAN [55] 是 VIF 的三种特定于任务的融合方法。 ANVF [3]、DenseFuse [22] 和 GANMcC [82] 是 VIS-NIR 的任务特定比较算法。 CSMCA [39]、EMFusion [4] 和 DDcGAN [24] 是针对医学图像融合任务选择的三种特定于任务的方法。 MEF 的特定任务替代方案是 SPD-MEF [41]、MEFNet [83] 和 MEF-GAN [25]。 SFMD [42]、DRPL [46] 和 MFFGAN [56] 是 MFF 的三种比较方法。值得一提的是,除传统方案GTF[17]、ANVF[3]、CSMCA[39]、SPD-MEF[41]、SFMD[42]外,所有算法都是基于深度学习的方法。
评估指标:选择四个指标来量化评估,包括特征互信息(FMI)[84]、Qabf、结构相似性(SSIM)[75]和峰值信噪比(PSNR)。 FMI 和 Qabf 分别测量从源图像转移到融合图像的特征信息和边缘信息量。 PSNR 揭示了像素级融合过程中的失真情况。此外,SSIM从亮度、对比度、结构等角度反映了图像的畸变情况。具有较高 FMI、Qabf、SSIM 和 PSNR 的融合方法意味着更好的融合性能。
B.实现细节
批量大小设置为16,每个融合任务需要10000个训练步骤。在每个步骤中,训练集中的图像被随机裁剪成 128 × 128 的块,然后将其标准化为 [0, 1]。我们的 SwinFusion 的参数由 Adam 优化器更新,学习率初始化为 2×10−4,然后呈指数衰减。控制每个子损失项权衡的超参数根据经验设置为 λ1 = 10、λ2 = 20 和 λ3 = 20。此外,窗口大小 M 设置为 8,参考 SwinIR [33] 。所提出的 SwinFusion 在 PyTorch 平台上实现[85]。此外,所有实验均在 NVIDIA TITAN RTX GPU 和 2.60GHz Intel(R) Xeon(R) Platinum 8171M CPU 上进行。
处理 RGB 输入:RGB 输入首先转换为 YCbCr 颜色空间。接下来,Y(亮度)通道被用作融合模型的输入,因为结构细节和强度信息主要集中在该通道中。对于多模态图像融合,由于只有可见图像和 PET 图像包含颜色信息,因此融合的 Y 通道与可见图像(或 PET 图像)的 Cb 和 Cr(色度)通道一起映射回 RGB 颜色空间。对于数字摄影图像融合,传统上根据以下公式合并 Cb 和 Cr 通道:
其中C1和C2分别是源图像I1和I2的Cb或Cr通道。 Cf是对应通道的融合结果。本文中 τ 设置为 128。然后,将融合后的Y、Cb和Cr通道通过逆变换转换到RGB颜色空间。因此,多模态图像融合和数字摄影图像融合都统一为单通道图像融合问题。
处理序列输入:在实践中,期望有一个强大的框架来融合序列图像,即两个以上的图像。在这种情况下,我们依次融合这些源图像。示意图如图 5 和图 6 所示。如图所示,我们最初合并两个序列图像。然后,将中间结果与另一个源图像融合以生成最终的融合图像。通过这种方式,我们的 SwinFusion 理论上能够融合任意数量的序列图像。
C. 多模态图像融合
定量比较结果:表 I 显示了 SwinFusion 和最先进算法之间的定量比较。可以看出,SwinFusion 在多模态图像融合任务的几乎所有指标上都处于领先地位。更具体地说,最高的 FMI 和 Qabf 意味着我们的方法将最多的特征和边缘信息从源图像转移到融合图像中。 VIF、VISNIR 和 Med (PET-MRI) 上的最佳 SSIM 揭示了结构信息维护的优势。所提出的框架仅在 Med (CT-MRI) 的 SSIM 指数中落后于 IFCNN。此外,我们的方法在 VIS-NIR 上实现了最佳 PSNR,这意味着我们的方法在融合过程中信息失真最小。虽然我们方案在VIF上的PSNR落后于其他竞争对手,但这是情有可原的。更具体地说,我们的模型通过充分整合源图像中的全局相互作用,更加关注红外图像中的显着目标区域,从而导致非显着区域的信息丢失。在医学图像融合中也会出现类似的现象,因为我们的融合网络更多地关注源图像中重要的区域,而忽略了不重要的区域。
视觉质量比较:我们还在图7-图10中提供了一些视觉结果,以直观地展示我们的方法在全局上下文集成方面的优势。从图7中可以看出,GTF、SDNet和U2Fusion由于缺乏全局信息交互和不适当的强度控制,无法有效地呈现可见图像中的场景信息。此外,DenseFuse和IFCNN可以保留可见光图像的部分纹理细节,但仍然受到热辐射污染,不同程度地削弱了红外图像的显着目标。值得强调的是,我们的 SwinFusion 不仅保留了可见图像的场景信息,而且还保留了显着对象,受益于有效的全局上下文感知和适当的强度控制。 特别是,我们的模型能够通过模内和模间远程建模和全局上下文聚合自适应地关注红外图像中的显着区域和可见图像中的背景。
对于可见光和近红外图像的融合,需要一种优秀的融合算法将近红外图像中的纹理细节转移到可见光图像中,从而生成融合图像。如图8所示,ANVF、DenseFuse和U2Fusion都无法将近红外图像中的纹理细节融合到融合结果中。只有IFCNN、SDNet和SwinFusion生成的融合图像看起来像锐化的可见图像。特别地,我们的方法由于充分的全局信息聚合、有效的结构维护和纹理保存,在定量评估方面具有优势。
PET和MRI图像融合(Med(PET-MRI))的视觉质量比较如图9所示。从结果可以发现,其他融合算法不可避免地削弱了源图像中的本质信息。更具体地说,在 PET 图像不包含功能信息的某些领域,由于缺乏全局上下文集成和适当的强度控制,其他竞争对手通常会破坏 MRI 图像中的软组织信息。这个问题可以从图9中的绿色方框中观察到。此外,如图红色方框所示,DDcGAN和SDNet无法有效地聚合源图像中的互补信息并平滑MRI图像中的纹理细节。值得注意的是,由于有效的结构维护、全局交互聚合和适当的强度控制,我们的融合模型可以保留 MRI 图像中的丰富细节,并充分表征 PET 图像中的功能信息。
我们还在图10中提供了三个典型CT和MRI图像对的一些定性融合结果。在其他替代方案的结果中,CT图像中的致密结构被不同程度地削弱。此外,CSMCA、IFCNN 和 U2Fusion 减少了 MRI 图像的边缘,如第一行和第二行所示。此外,DDcGAN 无法保持源图像的强度分布和对比度。相反,我们的SwinFusion在软组织细节和解剖信息损失很少的前提下保留了更多的结构(纹理)信息。
D. 数字摄影图像融合
定量比较的结果:我们的方法与其他替代方案在数字摄影图像融合场景上的定量比较如表二所示。从结果中,我们看到我们的框架在多曝光图像融合和多焦点图像融合的 Qabf、SSIM 和 PSNR 方面均排名第一。此外,所提出的方法在 MEF 上实现了最佳 FMI,并且在 MFF 的 FMI 指标上仅落后于 MADCNN 一小部分。上述现象表明我们的模型能够有效地整合互补信息并充分保留源图像中的纹理和结构信息。
视觉质量比较:多重曝光图像融合的定性比较如图11所示。可以观察到,其他算法无法保持适当的曝光水平,因为这些算法缺乏全局曝光感知的能力。更具体地说,SDNet 和 U2Fusion 无法照亮隐藏在黑暗中的场景信息(例如,红色框中突出显示的区域)。虽然MEF-GAN的整体曝光水平稍好一些,但由于建模过程中引入了下采样,导致局部过曝和模糊。 SPD-MEF 和 IFCNN 在某些区域引入了伪影,例如第二行的光线。此外,SPD-MEF 丢失了曝光不足图像中的所有信息,导致融合结果严重过度曝光。只有我们的SwinFsuion才能有效地融合源图像中的互补信息,并通过全局曝光感知来维持适当的曝光水平。
我们还在图 12 中展示了多焦点图像融合的主观比较结果。从结果中我们可以注意到,所有方法都可以集成来自不同源图像中的聚焦区域的信息并生成全焦点图像。然而,由于缺乏全局上下文交互,MFF-AGN、SDNet 和 U2Fusion 无法保留最佳强度分布。我们的方法能够实现自适应焦点区域感知,并通过全局上下文聚合保持适当的强度分布。
总之,对多模态图像融合和数字摄影图像融合进行的广泛的客观和主观比较证明了我们的 SwinFusion 在结构维护、纹理细节保留和适当的强度控制方面的优越性。我们总结了以下几个方面的优势。一方面,我们明确设计相应的损失函数来分别实现结构保留、纹理保留和自适应强度控制。 另一方面,所提出的注意力引导跨域融合模块可以实现域内和域间的远程依赖建模和全局上下文聚合,这使得我们的方法能够从全局角度对强度分布进行建模。此外,基于变压器的深度特征提取模块还帮助我们的模型从全局角度挖掘重要特征和信息。
E.全局信息的可视化
如前所述,我们的方法能够充分利用域内和域之间的全局信息。 摘要,对于多模态图像融合,我们的方法可以通过组合全局信息来准确感知显着特征(例如红外图像中的热目标和MRI图像中的软组织信息)并将其有效地集成到融合图像中。对于数字摄影图像融合,全局信息帮助我们的模型从全局角度感知源图像的强度分布,并以合适的强度呈现场景信息。为了直观地展示全局信息的作用,我们提供了图13中的示意图。第二列显示了以局部补丁作为输入的融合结果。人们可以注意到,当缺乏全局信息时(即,以局部补丁作为输入),我们的模型无法有效地保留红外图像中的突出目标。 此外,如果没有从全局角度感知强度分布的能力,我们的方法也无法在多重曝光图像融合任务中以适当的曝光级别呈现场景信息。具体来说,融合图像会遭受曝光不足和正常曝光交替的影响。相反,当使用整个图像作为输入,为我们的模型提供足够的全局信息时,我们的方法不仅有效地保留了红外图像中的显着目标,而且还呈现了正常曝光的场景信息。
F. 用于其他视觉任务的图像融合
我们研究了图像融合在其他视觉任务中的积极作用。具体来说,我们分析了以源图像和融合图像为输入条件下的其他视觉任务(如语义分割、目标检测和深度估计)的性能。用于语义分割的可见光和红外图像融合:相关实验配置遵循SeAFusion[7]。语义分割的定量结果,通过像素相交-过连(IoU)测量,如表III所示。从结果中可以看出,我们的融合方法可以有效地促进分割模型[86]通过充分整合模内和模间的互补信息以及全局背景来感知成像场景。我们还在图14中提供了一些视觉例子,直观地揭示了融合结果对语义分割的积极作用。可以注意到,红外图像可以提供行人和汽车的足够信息,但不能为第一个场景的分割模型提供关于自行车的信息。相比之下,分割模型可以分割汽车和自行车,但不能完全将人从可见图像中分割出来。具体来说,该分割模型可以从融合图像中分割出行人、汽车和自行车,融合了红外图像和可见光图像的优点。此外,在第二种场景中,无论是可见光图像还是红外图像,都无法为分割模型提供足够的信息来完全分割人和车。分割网络仅从融合后的图像中感知到足够的场景信息,才能对车和行人进行完整的分割。
可见光和红外图像融合用于目标检测:我们还研究了可见光和红外图像融合在目标检测中的作用。最先进的检测网络,即, YOLOv5[87]用于测量源图像和融合图像上的目标检测性能。使用GAN-FM对测试集进行收集和标记[88]。我们在表IV中展示了目标检测的平均精度(mAP),其中AP@0.5、AP@0.7和AP@0.9分别表示IoU阈值为0.5、0.7和0.9时的AP值,mAP@[0.5:0.95]表示不同IoU阈值下所有AP值的平均值(从0.5到0.95,以0.05为步长)。从表4可以看出,可见光和红外图像只能为探测器提供特定对象的信息。因此,该检测模型在可见光图像上具有较好的汽车检测性能,而在红外图像上具有较好的行人检测性能。这种互补特性为检测器在融合图像上实现更好的性能提供了潜力。事实上,该检测网络在融合图像上表现出更均衡的性能。此外,融合后的图像通过结合源图像中的互补信息,可以对汽车进行更全面的描述。从而使检测器能够达到更好的汽车检测性能。融合图像的行人检测性能虽然不如红外图像,但也有其合理性。红外图像仅采集突出物体的热辐射信息,忽略了周围环境,对人等突出目标对比度更高,便于探测器检测行人。图15给出了一些可视化的例子。
用于深度估计的多焦点图像融合:多焦点图像和融合结果对深度估计的影响如图 16 所示。我们采用 AdaBins [89] 从单个 RGB 输入图像估计高质量密集深度图。从视觉结果中我们可以发现,AdaBins只能成功地从多焦点图像中估计出聚焦区域中的物体的密集深度图,而对非聚焦区域中的物体则一视同仁,即无法估计出正确的深度图。此外,我们的方法有效地将源图像聚焦区域中的场景信息集成到单个全焦点图像中。因此,AdaBins 能够成功地从融合图像中估计出所有对象的密集深度图。
G. 消融研究
我们的 SwinFusion 的性能依赖于复杂的网络架构和损失函数。一方面,CNN-Transformer联合架构有效地从源图像中挖掘局部信息和全局交互。 特别是,基于 Transformer 的深度特征提取(DE)充分提取了浅层特征中的全局上下文。此外,注意力引导的跨域融合模块(ACFM)充分集成了互补信息以及域内和域间的远程依赖关系,这使得我们的网络能够从全局角度感知表观强度。另一方面,设计的SSIM损失、纹理损失和强度损失驱动我们的模型实现有效的结构维护、纹理细节保留和适当的强度控制。在本节中,我们进行了一系列消融研究以验证特定设计的有效性。多模态图像融合(例如,VIF)和数字摄影图像融合(例如,MEF)的消融实验的视觉结果如图 17 所示。
深度特征提取(DE)分析:基于 Transformer 的深度特征提取可以利用浅层特征中的全局背景为融合模型提供适当的强度感知。如图17(c)所示,去除深度特征提取后,融合结果未能呈现合适的表观强度。具体来说,融合网络无法感知源图像中的重要且互补的信息以进行可见光和红外图像融合。
注意力引导跨域融合模块(ACFM)分析:注意力引导跨域融合模块由基于自注意力的域内融合单元和基于交叉注意力的域间融合单元组成,其中可以充分聚合同域内和跨域的远程依赖和全局交互。 从图17(d)中我们可以发现,去除ACFM后,融合模型无法有效控制融合图像的表观强度。这种现象对于多重曝光图像融合任务尤其明显,即融合结果无法呈现适当的曝光水平。
域间融合单元(Inter)分析:域间融合单元是注意力引导的跨域融合模块的重要组成部分,能够充分利用和利用跨域的远程依赖关系来实现有效的信息集成。如图17(e)所示,没有域间融合单元的网络在VIF任务上的视觉性能与没有ACFM的网络的视觉性能相似。这种现象表明,VIF 任务中的重要目标和结构是通过跨领域整合全局信息来感知的。此外,与去除整个ACFM相比,仅去除域间融合单元改善了融合图像的曝光情况。然而,没有域间融合单元的网络生成的融合图像仍然无法以合适的曝光级别呈现场景信息。
结构维护分析(Lssim):我们引入SSIM损失(Lssim)来约束融合网络以维护源图像中的结构信息。此外,SSIM损失也会在一定程度上抑制融合结果的亮度。如图17(f)所示,没有SSIM损失约束的网络无法保持最优的结构和强度信息。特别是,对于 VIF 场景,红外图像中的显着目标略有减弱。
纹理保留分析(Ltext):为了更好地表征成像场景,期望在融合结果中尽可能保留源图像的丰富纹理。因此,我们设计纹理损失以保留更多纹理细节。从图17(g)可以看出,没有纹理损失训练的融合模型无法生成具有丰富纹理的融合图像。这个问题可以从地面的裂缝、路边的栅栏、天空的云彩和墙上的纹理中观察到。
适当强度控制的分析(Lint):我们还设计了强度损失来约束融合网络以适当的强度呈现融合结果。没有强度损失约束的融合图像如图17(h)所示。
从结果中我们可以发现,融合网络在去除强度损失后无法生成具有合适表观强度的融合结果。具体来说,融合模型削弱了 VIF 任务的重要对象,并且无法感知 MEF 场景的正常暴露水平。
值得强调的是,我们的 SwinFusion 可以在 SSIM 损失、纹理损失和强度损失的约束下实现有效的结构维护、纹理保留和适当的强度控制。特别是,我们的融合模型可以通过充分整合域内和域间的远程依赖性和全局交互来实现全局强度感知。
消融研究的定量结果如表五所示。从结果中我们可以看出,去除任何组件都会或多或少地降低融合性能。可见光和红外图像融合的 PSNR 有所提高,这是由于融合模型未能感知源图像中的重要信息而导致的。 特别是,尽管去除SSIM损失后视觉结果的退化并不严重,但定量评估却出现了明显的退化。
H. 计算复杂度分析
如表6所示,引入复杂度评价,从训练参数(大小)、每秒浮点运算次数(FLOPs)和运行时间三个角度对不同方法的运算效率进行评价。利用每个融合场景中测试集的第一张图像计算方法的FLOPS。从结果中,我们可以观察到基于深度学习的方法与传统方法相比在运行时具有显着优势,受益于GPU加速。在常用的图像融合方法中,PMGI、IFCNN和SDNet具有较低的训练参数、较低的FLOPs和较低的平均运行时间。此外,MEFNet和MFF- gan在MEF和MFF任务中的训练参数和FLOPs分别最低。值得指出的是,我们的方法与主流图像融合算法具有相当的操作效率,尽管它需要计算窗口内像素到像素的相关性(即注意力),并且包含几个基于变压器的组件。
五、结论
在本文中,我们提出了一种基于跨域远程学习和Swin Transformer的通用图像融合方法——SwinFusion,它可以在一个统一的框架内处理多模态图像融合和数字摄影图像融合。本文提出的SwinFusion将多模态图像融合和数字摄影图像融合结合起来,实现结构保持、纹理细节保留和适当的强度控制。然后,我们设计了一个由SSIM损失、纹理损失和强度损失组成的统一损失函数来约束网络实现相应的功能。此外,还开发了基于自注意的域内融合单元和基于交叉注意的域间融合单元,以充分整合同一域内和跨域的远程依赖和全局交互。基于精细的网络架构和损失函数,该方法在多模态图像融合和数字摄影图像融合场景下都能保持源图像的结构信息和丰富的纹理细节。此外,我们的模型从全局角度为融合图像提供了合适的视强度。已经进行了大量的实验来验证与最先进的替代品相比,SwinFusion的优越性。此外,在语义分割、目标检测和深度估计方面的扩展实验证明了图像融合在其他计算机视觉任务中的潜力。