A practical infrared and visible image fusion network based on progressive ..._译文

图像融合旨在将源图像的互补特征集成到单个融合图像中，更好地服务于人类视觉观察和机器视觉感知。然而，大多数现有的图像融合算法主要侧重于提高融合图像的视觉吸引力。尽管有一些语义驱动的方法考虑了下游应用程序的语义需求，但与特征级融合相比，它们都没有展示出图像级融合的潜力，特征级融合直接在多模态特征上完成高级视觉任务，而不是在多模态特征上完成高级视觉任务。在融合图像上。为了克服这些限制，本文提出了一种基于渐进语义注入和场景保真度约束的实用红外和可见光图像融合网络，称为 PSFusion。首先，稀疏语义感知分支提取足够的语义特征，然后使用语义注入模块将其逐步集成到融合网络中，以满足高级视觉任务的语义要求。设计场景恢复分支内的场景保真度路径，以确保融合特征包含用于重建源图像的完整信息。此外，采用对比度掩模和显着目标掩模来构建融合损失，以保持融合结果的令人印象深刻的视觉效果。特别是，我们提供定量和定性分析，以证明图像级融合与高级视觉任务的特征级融合相比的潜力。随着大规模模型的快速发展，图像级融合可以迅速利用多模态数据和最先进（SOTA）单模态分割的优势来实现卓越的性能。此外，广泛的比较实验证明了我们的 PSFusion 在视觉吸引力和高级语义方面优于 SOTA 图像级融合替代方案。即使在恶劣的环境下，我们的方法也能提供令人满意的融合结果，以服务于后续的高级视觉应用。源代码可在 https://github.com/Linfeng-Tang/PSFusion 获取。

1.简介

具有多种成像模式的传感器通常能够从不同的角度描述成像场景[1,2]。例如，流行的可见光相机通过捕获反射光来生成图像。它可以在明确的环境下生动地描绘物体，但容易受到恶劣环境的影响，例如夜间、雾气或遮挡。相比之下，红外传感器捕获热辐射信息，可以有效强调突出目标，并且在极端环境下也具有鲁棒性。然而，红外传感器生成的热图像通常分辨率较低，无法描绘详细信息。两个传感器的互补特性促使研究人员融合红外和可见光图像并合成信息丰富的融合图像。

近年来，红外与可见光图像融合技术因其实用性不断受到越来越多的关注。

图 1 显示了一个典型示例。在夜间，可见图像虽然可以更好地感知周围环境，但会淹没光线中的行人和车辆。得益于独特的成像原理，红外图像可以清晰呈现行人和车辆。如图1（c）所示，出色的图像融合方法可以有效地整合突出目标和环境细节，合成有助于视觉感知和机器视觉的融合图像。充分的信息聚合和出色的视觉效果使图像融合能够广泛应用于各种实际应用，例如夜间驾驶辅助、视频监控[4]、目标检测[5]、跟踪[6]、语义分割[7]和更多的。近年来，红外与可见光图像融合技术因其实用性不断受到越来越多的关注。红外与可见光图像融合大致可分为视觉感知导向的方法和语义驱动的方法。早期的图像融合方法主要通过引入多尺度变换[8]、子空间变换[9]、稀疏表示[10]和显着性分析[11]来追求更好的视觉效果。随着深度学习的兴起，研究人员还开发了深度模型，通过结合卷积神经网络（CNN）[12]、自动编码器（AE）[13]、生成对抗网络（GAN）[ 14]和变压器[15]。尽管上述方法，尤其是基于深度学习的方法，取得了令人满意的融合结果，但都没有考虑如何促进后续的高级视觉任务。

为了解决这一差距，Tang 等人。首先提出了一种名为 SeAFusion 的语义感知融合框架，通过在融合网络后面附加一个分割模型，如图 2（a）所示。 SeAFusion 旨在保持优异的表观效果，同时增强融合图像中的语义信息 [3]。随后，刘等人。 [16] 和孙等人。 [17]还设计了对象检测驱动的图像融合方法，以强制融合网络从检测角度保留更多语义信息。然而，这些方法利用特定的高级模型来约束融合结果，这可能会限制融合图像到其他模型的泛化。此外，SeAFusion仅依靠最大选择策略来约束融合图像的强度，这可能会限制在某些极端情况下图像融合的潜力。如图1（b）所示，尽管行人在红外图像中很明显，但由于车灯的干扰，SeAFusion的融合图像并未有效地将行人呈现在高亮区域中。融合结果的不足也导致分割模型无法准确分割物体，尤其是边缘区域。

值得注意的是，特征级融合是高级视觉任务更主流、更直接的解决方案[18,19]。如图2（b）所示，它直接在多模态融合特征上完成高级视觉任务，不需要提前生成融合图像。特征级融合通常部署完善的主干网，即特征提取网络，以从源图像中提取信息丰富的语义特征。随后，设计特定的融合模块来集成基于所使用的主干的互补特征，并且应用特定于任务的预测标头来完成所需的任务。该方案利用模态共享特征提取网络或两个独立的特征提取网络来提取语义特征。一方面，模态共享特征提取网络无法有效适应红外和可见光图像之间的域变化，从而导致性能显着下降，如图3中的EGFNet [20]和LASNet [21]所示。另一方面，两个独立的特征提取分支（尤其是大规模主干）通常会导致两倍的计算负载，如 GMNet [18] 和 MDRNet [22] 所证明的那样。此外，现有的基于特征级融合的方法仅针对特定任务（例如语义分割、对象检测和跟踪）量身定制，无法有效推广到其他任务。

此外，基于单峰输入的主干网，例如 Transformer [23] 和 ConvNeXt [24]，正在迅速发展。然而，将现有的特征级融合模块应用于这些新颖的主干通常需要繁琐的重新设计。特征融合模块和骨干网之间的差距限制了基于特征级融合的方案追求更高性能的潜力。值得强调的是，现有的语义驱动图像融合方法仅在高级视觉任务中证明了融合图像相对于单峰图像（即红外或可见图像）的优越性。然而，与特征级融合相比，他们并没有挖掘图像级融合的潜力，这使得图像级融合的发展陷入了困境。

为了克服现有图像融合算法的局限性，我们提出了一种基于渐进语义注入和场景保真度的实用红外和可见光图像融合网络，简称PSFusion。我们的方法包括具有图像融合路径的场景恢复分支和稀疏语义预测分支，两者共享多尺度特征提取网络。我们使用特征级别的语义注入模块逐步将受多个语义感知任务共同约束的语义信息注入到场景恢复分支中。这使得我们的融合结果能够包含丰富的语义线索，这对于任意高级模型来说都是友好且稳健的。此外，我们在场景恢复分支中引入了一个场景保真度路径，该路径负责从融合特征重构源图像，以约束融合特征包含源图像的所有完整信息。此外，还设计了浅层细节融合模块和深层语义融合模块，分别聚合浅层特征中的结构信息和深层特征中的语义信息。重要的是，我们充分挖掘了图像级融合在高级视觉任务中的潜力。如图3所示，当单模态分割模型将我们的融合结果作为输入时，它可以实现与基于特征级融合的最先进（SOTA）多模态分割模型相同的性能。特别是，我们的解决方案仅利用一个特征提取分支从融合图像中提取语义特征，与基于 SOTA 特征级融合的多模态方案相比，参数更少。

本文的主要贡献可以概括如下：

∙ 我们首次证明，对于高级视觉任务，多模态图像级融合可以实现与多模态特征级融合相当的性能较低的计算负荷。它证明了图像融合在高级视觉任务中的必要性。

∙ 我们在特征级别逐步将语义特征注入到融合网络中，从而确保具有丰富语义线索的融合结果对于任意高级骨干网都是友好且鲁棒的。此外，设计了与图像融合路径并行的场景保真度路径来约束融合模块保留源图像的完整信息。

∙ 大量实验证明了我们提出的方法在视觉感知和高级语义方面优于图像级和特征级融合算法。

本文的其余部分组织如下。在第二节中，我们简要介绍了图像融合、单模态语义分割和多模态分割的相关工作。在第 3 节中，我们详细阐述了所提出的 PSFusion，包括整体框架和损失函数。第 4 节说明了我们的方法与其他替代方法相比令人印象深刻的性能，特别是基于特征级融合的多模态分割模型，然后是第 5 节中的一些结论。

2.相关工作

在本节中，介绍了与我们的方法相关的几个典型工作。首先，我们回顾了一些具有代表性的红外和可见光图像融合方法，介绍了图像级融合的发展。随后，我们概述了单模态语义分割的流行主干，以及基于特征级融合的主流多模态分割方法。

2.1.红外与可见光图像融合

2.1.1面向视觉感知的图像融合

在最早的时代，红外和可见光图像融合方法的目的只是在单个融合图像中呈现源图像的完整信息。为了保证合成的融合结果与人类视觉感知系统更加一致，图像融合领域引入了多种图像处理技术。这些技术包括拉普拉斯金字塔、离散小波[25]、非下采样轮廓波变换[26]、潜在低秩表示[10]、稀疏表示[27]、主成分分析[9]和非负矩阵分解[28]。此外，马等人。将全变分的思想引入图像融合并提出GTF[29]，将图像融合定义为整体强度保持和纹理结构保留以获得高对比度的融合结果。此外，一些研究人员试图结合多种技术的优点来产生更令人满意的融合结果[11,30]。然而，采用传统的图像处理技术进行图像融合任务通常涉及复杂的活动水平测量和手工制定的融合规则。因此，这些方法无法有效地整合语义信息并响应复杂的场景。

深度学习的蓬勃发展也为图像融合提供了新的机遇。基于深度学习的红外和可见图像融合方法可大致分为预训练融合框架和端到端融合框架。预训练融合框架涉及在大规模数据集上训练自动编码器以执行特征提取和图像重建，其重点是设计网络架构和融合策略[13,31]。李等人。提出了第一个预训练的融合模型，称为 DenseFuse [13]，由三个组件组成，即编码器层、融合层和解码器层。他们在融合层中采用了逐元素加法或l1-范数策略，并在编码器层中引入了密集连接，以获得令人满意的融合结果。随后，他们引入了多尺度架构和嵌套连接来提取更全面的特征[32,33]。此外，赵等人。开发了一种新的编码器，用于多尺度分解并提取详细特征和背景特征[34]。同样，唐等人。结合 Retinex 理论，通过设计多个编码器来分解可见图像的照明和反射分量，以增强夜间的融合结果 [35]。上述所有方法都通过修改网络架构来增强特征提取能力。然而，他们采用手工制作的融合策略来集成深层特征，这可能会限制预训练融合框架的性能提升。为了应对这一挑战，Xu 等人。部署分类器来执行激活级别测量并从分类角度为深层特征分配融合权重[36]。这个想法使得融合策略也变得可学习，并提高了深度模型的可解释性。

端到端融合框架可以有效消除手工制作融合策略的负担，通过精心设计损失函数、网络架构和学习范式来实现图像融合。研究人员根据图像融合的特性开发了许多损失函数，以便在网络训练之前提供足够的指导。在共同的强度和梯度损失的基础上，Ma等人。设计了基于重要目标掩模的融合损失，以选择性地融合目标和背景区域[12]。此外，考虑到光照变化，他们设计了光照感知损失函数[37]。还引入结构相似性（SSIM）损失[38]和感知损失[39]来约束融合结果，以避免结构信息失真。此外，各种新颖的网络架构，例如残差块[12]、聚合残差密集块[38]和梯度残差密集块[3]，以及融合模块，包括跨模态差分感知融合模块[37] 、交互融合模块[40]、全局空间注意模块[41]和双相循环融合模块[42]的开发是为了保证融合结果的视觉吸引力。由于缺乏真实的融合图像，研究人员还引入了一些新颖的学习范式，例如生成对抗机制[14]和对比学习。马等人。首先将生成对抗网络引入图像融合领域，并提出了 FusionGAN [14]，它利用判别器迫使生成器保留更多来自可见图像的纹理细节。 FusionGAN的继承者，如DDcGAN [43]、AttentionFGAN [44]和SDDGAN [45]，也设计了双判别器来避免单个判别器引起的模态不平衡。

近年来，Transformer [23] 在高级 [46-49] 和低级 [50-52] 视觉任务中都表现出了超越 CNN 的巨大潜力。因此，开发了一些基于transformer的融合模型，如SwinFusion[15]、IFT[53]和AFT[54]，以充分探索源图像中的远程依赖关系。考虑到红外和可见光图像在实际应用中通常存在不同程度的不对准，最新的方法（如RFNet[55]、UMF-CMGR[40]、ReCoNet[42]和SuperFusion[41]）在融合模块之前加入对准模块，以在源图像中配准不对准。此外，一些方法，包括 PMGI [56]、IFCNN [57]、U2Fusion [58]、DeFusion [59] 和 SwinFusion [3] 对各种图像融合任务进行统一建模，因为这些任务之间存在共性。特别是，U2Fusion为多个融合任务训练了一个统一的模型，促进了不同融合任务之间的交叉融合。然而，上述所有方法主要集中于整合源图像中的补充信息并增强融合图像的视觉吸引力。他们都没有考虑后续高级视觉任务对融合结果的要求。

2.1.2.语义驱动的图像融合

为了满足高级视觉任务对图像融合的要求，Tang等人。提出了第一个语义驱动的图像融合算法，称为 SeAFusion [3]。 SeAFusion 在图像融合网络后面级联语义分割网络，通过梯度反向传播为融合网络提供语义需求反馈。同样，刘等人。用目标检测工作代替分割网络，并提出了 TarDAL [16]，它从目标检测的角度约束融合网络保留丰富的语义信息。需要注意的是，TarDAL 联合训练的模型可能会在融合结果中引入显着的噪声，因此人类感知和机器视觉需要两个单独的版本。此外，孙等人。分别基于红外和可见光图像训练了两个目标检测模型，并联合使用两个检测模型约束融合网络[17]。将检测网络中生成的注意力图转移到融合网络中以实现充分的信息聚合。然而，融合图像和源图像之间的域变化使得在源图像上训练的检测模型难以准确测量融合结果中包含的语义信息。此外，上述解决方案采用特定模型来约束最终的融合结果，这可能会限制融合图像对其他模型的适用性。为了应对这一挑战，我们建议将语义感知任务中涉及的语义特征明确地注入特征级别的融合网络中。

2.2.语义分割

2.2.1单模态语义分割

语义分割是计算机视觉中的一项基本任务。由于全卷积网络（FCN）[60]将密集语义分割视为端到端的每像素分类任务，因此 CNN [61, 62] 一直在该领域占据主导地位。最近，Transformers [48,48] 由于其出色的上下文建模能力而逐渐占据了 CNN 的主导地位。

最初，研究人员通常采用主流分类主干（例如 ResNet [63] 和 DenseNet [64]）而不是特定的架构来提取语义特征。然而，语义分割是一个密集的预测任务，这与图像分类不同。因此，开发了一些定制的特征提取网络，例如 SETR [47]、SegFormer [48]、DPT [65] 和 SegNeXt [66] 等。此外，研究人员设计了一些具有不同目标的新型解码器网络，包括扩大接收网络领域[67]，收集多尺度语义[68]，捕获全局上下文[69]，并增强边缘特征[70]。

2.2.2.多模态语义分割

虽然以前的工作已经在基于标准 RGB 的数据集上取得了显着的分割性能，但在具有挑战性的现实场景中，需要使用多模态传感器来提供对场景更全面的理解 [71]。哈等人。发布了第一个多光谱语义分割数据集，名为 MFNet，并使用两个对称和简单的编码器以及一个迷你初始解码器实现了多模态分割[72]。然而，简单的特征提取网络无法提取足够的语义特征。因此，一些方法（例如 RTFNet [73]、FEANet [74] 和 MDRNet [22]）引入强大的主干网（例如 ResNet [63]）作为编码器来提取更完整的特征。设计了一些新颖的特征融合模块，包括互补激活模块[21]、多模态融合模型[20]、通道加权特征融合模块[22]和深度特征融合模块[18]，以实现足够的互补信息聚合。此外，赵等人。利用二元[18]和边缘先验[20]为多模态语义感知提供充分的监督。

最近，刘等人。应用更先进的主干，即SegFormer [48]，来完成多模态分割任务，并在该领域取得了新的最先进的性能[75]。值得注意的是，将新的主干应用于多模态分割通常涉及对特征融合模块的复杂重新设计。特征融合模块和骨干网之间的差距意味着单模态分割的改进可能不会立即出现在多模态分割中。此外，大多数方法采用两个独立的编码器（尤其是大规模骨干网）从源图像中提取互补特征，这导致计算量显着增加。在这项研究中，我们展示了图像级融合相对于分割任务的特征级融合的潜力，这为提高复杂场景中高级视觉任务的性能提供了新的见解。

3.方法

在本节中，我们详细介绍了我们实用的红外和可见光图像融合方法，即 PSFusion。首先，我们概述了我们提出的方法。随后，我们介绍与图像融合和语义感知相关的损失函数。

3.1.总体框架

我们的方法首次提出在特征级别显式注入语义信息以适应不同的高级语义模型。如图4所示，所提出的方法涉及场景恢复分支和稀疏语义感知分支。更具体地说，场景恢复分支包含场景保真路径和图像融合路径，其中两条路径共享连续渐进语义注入模块（PSIM）、密集场景重建模块（DSRM）、语义注入模块（SIM）和密集场景重建模块。语义感知分支由稀疏语义感知模块（S2PM）和稀疏语义感知路径（S2P2）组成，其中S2P2由三个特定于任务的标头组成，用于从不同角度感知稀疏语义。给定一对配准的红外图像 Iir ε RH×W ×1 和可见图像 Ivi ε RH×W ×3，场景恢复分支的目标是重建红外图像 ̂Iir 和可见图像 ̂Ivi，并合成融合图像 If ε RH×W×3。稀疏语义感知分支负责预测边界分割结果Ibd、语义分割结果Ise和二值分割结果Ibi。

为了便于将语义感知分支的语义特征轻松注入到场景恢复分支中，我们希望在这两个分支之间共享特征提取网络。不幸的是，维持高分辨率特征对于保留场景恢复分支中的细粒度细节是必要的，而高级视觉任务需要下采样以提取足够的语义特征并捕获整体结构。这两个要求之间的矛盾使我们无法使用现有的主干网作为特征提取网络。因此，如图4所示，我们采用ResNet [63]作为我们的基本特征提取网络，并设计两个表面特征提取块（SFEB）来代替ResNet的第一层。特征提取可以表述为：

其中i = 3,4,5,6，ResB表示ResNet中的残差块。特别地，当i = 1,2,3时， i ir 和 i vi 分别代表表面红外和可见光特征。若i = 4, 5, 6，则 i ir 和 i vi 分别表示深层红外语义特征和可见语义特征。相应地，我们开发了浅层细节融合模块和深层语义融合模块，分别聚合浅层和深层特征中的互补信息。

考虑到浅层特征包含丰富的细节和结构信息，我们提出了一种基于通道空间注意机制的浅层细节融合模块（SDFM）来集成浅层特征。 SDFM 的架构如图 5 所示。特别是，我们在通道维度上连接红外和可见光特征，然后将它们输入通道注意力模块，该模块由卷积和池化操作组成，以生成注意力权重。然后将这些权重应用于通过元素乘法对原始特征进行加权，并将结果特征添加到来自另一个分支的原始特征中，以增强它们的表示。特征强化过程可以总结如下：

其中⊕表示逐点求和，⊗表示逐点乘法，P w-Convn(⋅) 表示n个级联的逐点卷积层，(⋅)表示通道维度上的级联操作，δ(⋅)和GAP (·) 分别表示 sigmoid 函数和全局平均池化。然后，增强的特征在通道维度上串联起来，并输入到并行通道注意力和空间注意力模块中，以生成最终的融合权重。融合权重生成过程可以表述为：

由于红外和可见光特征是互补的，我们可以使用其中一种模态生成的权重，而另一种模态的融合权重可以表示为 1 − i。因此，表面特征的融合过程可以表述为：

鉴于高级视觉任务通常需要丰富的上下文信息来进行全面理解，我们开发了一种基于交叉注意力的深度语义融合模块（PSFM）来集成深层特征，如图6所示。PSFM首先采用密集层来增强主干提取的特征，并输出增强的深层特征 ̂ i ir 和 ̂ i vi。然后，部署包含卷积和重塑操作的投影函数，将增强的特征转换为键和值，如下所示：

其中 x ∈ {ir, vi} 表示模态，Ki x ∈ RHiWi×Ci 表示键，V i x ∈ RHiWi×Ci 表示值。 Conv(⋅) 和 Reshape(⋅) 分别对应于内核大小为 3 × 3 的卷积层和重塑操作。 Hi、Wi 和 Ci 分别指输入特征 ̂ i x 的高、宽和通道。应该注意的是，红外和可见光特征都被合并来生成我们的模态不变查询，如方程式所示。（8），这使我们能够完全利用多模态特征中的互补特性：

其中 Qi ∈ RHiWi×Ci 。然后，我们根据以下公式计算每个模态 x 的模态特定注意力图 x ∈ RHiWi×HiWi：

随后，将该值乘以注意力以获得具有全局上下文的特征。与 SDFM 类似，我们将全局特征添加到另一个分支的原始特征中，并沿通道维度连接结果特征。最后，我们将连接的特征输入卷积层以获得融合特征。这个过程可以表述为：

接下来，我们将首先介绍语义感知分支，然后进一步介绍场景恢复分支，因为场景恢复分支需要从语义感知分支中吸收语义特征。更具体地说，表面特征包含大量的低级信息，即详细信息，这可能会对高级视觉任务的性能产生负面影响[66]。因此，我们的稀疏语义感知分支仅利用深层特征和最后的浅层特征来预测边界、语义和二元分割结果。这些特征首先经过卷积和上采样操作，然后在通道维度中连接起来，如下所示：

其中 ↑n (⋅) 表示上采样 n 次。连接的特征作为初始语义特征（ init se ）被输入稀疏语义感知模块（S2PM），该模块由连续的卷积块组成。每个卷积块包括一个内核大小为 3 × 3 的卷积层、批量归一化和 ReLU 激活函数。接下来，我们受 GMNet [18] 的启发，设计了一个稀疏语义感知路径来预测边界、语义和二进制分割结果。稀疏语义感知路径可以表述如下：

其中se指的是S2FM的输出特征，ConvBN(·)表示由3×3内核大小的卷积层、批量归一化和ReLU激活函数组成的卷积块。

值得注意的是，我们期望场景恢复分支能够充分利用语义感知分支生成的深层语义信息。为了实现这一目标，我们受Zhang等人的启发，设计了渐进式语义注入模块（PSIM）。 [76]，它由多个语义注入模块（SIM）组成，逐步将后两个浅层特征注入到第一个浅层特征中。具体来说，我们首先将来自第三个浅层特征的语义信息注入到第二个特征中，然后将来自第二个特征的语义信息注入到第一个浅层特征中。给定两个相邻特征，用  i fu 和  i+1 fu (i = 1, 2) 表示，SIM 可以表示为：

其中 IN(⋅) 表示非参数实例归一化。

第一个表面特征从其他特征中吸收了丰富的语义信息，被视为场景恢复分支的初始细节特征（sr）。 sr 被输入密集场景重建模块（DSRM），该模块由卷积块和密集连接组成，以增强细粒度细节。随后，我们通过 SIM 将 S2PM 生成的语义特征（se）注入到场景重建特征中。部署另一个 DSRM 来强化细粒度特征并生成最终的场景重建特征（̂sr）。最后，我们使用由 3 × 3 内核大小的卷积层和 Tanh 激活函数组成的图像融合路径合成融合图像 If。值得强调的是，我们还设计了一个场景保真路径（SFP），它由模态特定掩模、卷积层和 Tanh 激活函数组成，用于从 ̂sr 重建源图像。因此，SFP可以约束̂sr包含用于重建红外图像̂Iir和可见图像̂Ivi的完整信息。在稀疏语义感知路径和场景保真度路径的双重约束下，图像融合路径生成的融合结果既能包含足够的语义信息，又能包含完整的场景信息，从而全面理解成像场景。

3.2.损失函数

我们的PSFusion不仅使用融合损失直接约束融合结果，还利用场景保真路径和稀疏语义感知路径间接约束融合网络的特征提取和聚合。接下来，我们依次描述融合损失、场景保真度损失和稀疏语义预测损失。

3.2.1.融合损失

我们引入强度损失int、纹理损失text和相关性损失corr来约束融合结果的视觉质量。如图1所示，SeAFusion[3]由于仅使用最大选择策略来构造强度损失，因此在一些极端情况下未能充分展现图像融合的优势。因此，我们从以下两个方面重新思考强度损失。一方面，以方差为特征的红外图像的高对比度特性有望得到保留。因此，我们通过比较红外和可见光图像的方差来生成对比度掩模，以指导融合网络自适应地保留源图像中的高对比度区域。红外或可见光图像的对比掩模可以表示为：

其中x表示红外或可见光模态，y表示另一种模态，σ2(x) ∈ RH×W ×1表示图像x的方差。

另一方面，遵循 STDFusionNet [12]，我们采用显着目标掩模 tar 来指导融合网络保留红外图像中的重要目标。具体来说，很容易从语义分割标签生成显着目标掩模。因此，强度损失int可以表示为：

其中 ‖⋅‖1 代表 l1-范数，δ(⋅) 表示 sigmoid 函数，用于将两个组合掩码的范围限制为 [0, 1]。

此外，我们还部署了纹理损失text来强制融合图像包含丰富的纹理信息，如下所示：

其中 ∇ 指 Sobel 梯度算子，| ⋅ |表示绝对运算，max(⋅) 表示逐元素最大选择。此外，我们引入正则化项 corr 来增强融合图像和源图像之间的相关性，如下所示：

其中corr(⋅)表示计算两幅图像的相关性。最后，融合损失函数可以表述如下：

其中α用于在不同损失函数之间取得平衡。在int、text和corr的统一约束下，我们的融合结果可以提供丰富的场景描述和良好的视觉感知。

3.2.2.辅助损失

我们设计了一个场景保真度路径来约束融合特征以包含用于重建源图像的完整信息。相应地，我们还设计了场景保真度损失，以确保实现这一目标的场景保真度路径。与融合损失类似，场景保真度损失也由强度项和纹理项组成，如下所示：

此外，我们引入了稀疏语义感知路径，以确保 S2PM 输出的特征包含足够的语义信息，这些信息将被注入到图像融合网络中。遵循GMNet[18]，我们设计了语义损失se、二元分割损失bi和边界分割损失bd，以迫使语义特征se可以有效地用于从不同角度感知成像场景。特别地，利用预测边界结果Ibd与其地面实况之间常用的交叉熵损失函数来构造边界分割损失。考虑到对象和背景之间的类不平衡，我们利用加权交叉熵损失来计算二元分割损失。此外，我们采用 OHEMCELoss [77] 来计算语义损失，这可以减轻困难示例带来的挑战。

最后，我们的 PSFusion 的完整目标函数是上述损失项的加权和，其公式为：

其中 λf 、 λsf 和 λse 是控制融合相关损失、场景保真度相关损失和语义相关损失之间权衡的超参数。

4.实验验证

在本节中，我们首先提供一些实验配置和实现细节。然后，我们从定性和定量的角度比较各种算法在多个数据集上的融合性能。此外，我们部署了不同的分割模型来验证 PSFusion 对于高级视觉任务的优势和泛化能力。之后，我们全面研究了图像级融合与高级视觉任务的特征级融合的潜力。最后，我们进行消融研究以证明具体设计的有效性。

4.1.配置和实施细节

我们在 MSRS 数据集 [3] 上训练我们的模型，并完全验证 PSFusion 在 MSRS [3]、M3FD [16] 上的融合性能，TNO [78] 和 RoadScene [58] 数据集。比较融合算法包括传统方法，即 GTF [29]，两种预训练方法，即 DIDFusion [34] 和 RFN-Nest [33]，以及六种端到端方法。后者涉及两种基于 GAN 的方法，即 FusionGAN [14] 和 TarDAL [16]，三种基于 CNN 的方法，即 UMFCMGR [40]、SeAFusion [3] 和 U2Fusion [58]，以及一种基于 Transformer 的方法，即 SwinFusion [15]。 SeAFusion和TarDAL是语义驱动的方法，而SwinFusion和U2Fusion是通用的融合算法。此外，我们选择了三种语义分割模型，包括 BANet [79]、SegFormer [48] 和 SegNeXt [66]，来测量 MSRS 数据集上融合结果中包含的语义信息。此外，我们还比较了我们的方法和特征级融合算法在更具挑战性的数据集（即 MFNet 数据集 [72]）上的高级视觉任务的性能。基于特征级融合的多模态分割算法包括MFNet [72]、RTFNet [73]、GMNet [18]、FEANet [74]、EGFNet [20]、LASNet [21]、MDRNet [22]和CMX [ 75]。

利用六种统计评估指标来定量评估融合性能，包括熵（EN）[80]、标准差（SD）[81]、平均梯度（AG）[82]、空间频率（SF）[83]、相关性差异（SCD）[84]，视觉信息保真度（VIF）[85]。这些指标的值越高表明融合性能越好。此外，像素交并集（IoU）用于量化分割性能。 MSRS和MFNet数据集都涉及九类对象，即汽车、人、自行车、曲线、停车站、护栏、色调和背景。

我们在单个框架中联合训练场景恢复分支和语义感知分支。根据经验，控制各种损失项权衡的超参数设置为 λf = 10、λsf = 5、λse = 10 和 α = 0.1。应用随机梯度下降（SGD）来训练我们的模型，批量大小设置为 16。我们将初始学习率设置为 0.001，并采用多元学习率衰减策略。我们对模型进行了 2500 个 epoch 的训练，这使我们能够完全挖掘语义信息。所有图像在输入网络之前都被归一化为 [0, 1]。正如 SeAFusion [3] 所建议的，我们在 YCbCr 颜色空间中处理颜色信息。我们的 PSFusion 是在 PyTorch 平台上实现的 [86]。所有比较算法和分割模型都是按照其原始论文实现的。所有实验均在 NVIDIA GeForce RTX 3090 和 2.90 GHz Intel(R) Xeon(R) Platinum 8375C CPU 上进行。

4.2. 融合比较与分析

4.2.1定性比较与分析

不同融合算法在MSRS、M3FD、TNO和Roadscene数据集上的可视化结果分别如图7、8、9和10所示。从图7中可以看出，TarDAL、SeAFusion和SwinFusion由于在可见光图像中过度曝光，无法准确呈现街道上的屋顶，导致捕获的信息不足。尽管其他方法可以呈现屋顶，但它们不可避免地削弱了显着目标（例如红框中的行人），尤其是 GTF、RFN-Nest 和 FusionGAN。相比之下，我们的方法能够完全集成源图像中的补充信息，以提供对成像场景的更全面的描述。同样，在烟雾缭绕的环境中，大多数融合算法虽然可以保留红外图像中的突出目标，但无法清晰地描绘隐藏在烟雾中的建筑物。如图8所示，我们的PSFusion合成的融合结果不仅突出了突出的行人，而且有效地显示了建筑物的细节。这种优势可以归因于两个方面。一方面，我们基于对比度掩模和显着目标掩模设计更精细的损失函数，以保持融合图像的视觉吸引力。另一方面，我们引入场景保真度路径来间接约束融合结果以在源图像中包含尽可能多的补充信息。

此外，TNO 和 RoadScene 上的视觉结果证明了我们的方法在融合性能方面的优越性。从图9中，我们可以注意到我们的PSFusion既可以保留红外图像中突出的士兵，也可以保留可见图像的纹理细节，例如窗边的树枝。如图 10 所示，只有我们的方法才能清晰地渲染道路两侧的行人以及街道环境中的车辆标记。广泛的定性比较和分析从视觉感知的角度充分证明了我们的PSFusion的优越融合性能。特别是，所提出的方法可以有效应对恶劣环境，例如夜间、雾天、遮挡和过度曝光。

4.2.2.定量比较与分析

定量比较结果如图1和图2所示。 11-14。对于具有单独训练集和测试集的数据集，即 MSRS 和 M3FD 数据集，我们在测试集上评估不同算法的指标。对于没有预定义分割的数据集，例如TNO和RoadScene数据集，我们遵循SeAFusion [3]的配置，随机选择25对图像来报告定量比较结果。从结果中，我们可以观察到我们的 PSFusion 在四个数据集的所有指标上都表现出显着的优势。仅在 TNO 数据集上，我们的方法在 VIF 指标上稍微落后于 SwinFusion。

我们的方法获得了最好的 EN，这意味着 PSFusion 生成的融合结果包含足够且丰富的信息。

SCD 指标中的最佳结果意味着我们的融合图像与源图像具有最高的相关性。这一优势归功于我们的场景保真度路径，它限制融合网络保留用于重建源图像的完整信息。此外，我们的 PSFusion 在 AG 和 SF 指标中排名第一，这表明我们的融合结果包含丰富的纹理细节，这与定性分析一致。此外，我们的方法在 SD 指标中获得了最高分数，这意味着我们的融合结果具有最佳对比度。这一优势归因于我们引入对比掩模来构建强度损失。最后，最好的 VIF 表明我们的融合图像与人类视觉系统更兼容。总之，定性和定量比较都证明了我们提出的方法具有出色的融合性能。

4.3. 细分比较与分析

4.3.1定量比较与分析

继SeAFusion [3]之后，我们从语义分割的角度评估了不同方法在MSRS数据集[37]上的语义性能。除了 SeAFusion 采用的 BANet [79] 之外，我们还引入了更复杂的分割模型，即SegFormer [48]和SegNeXt [66]，反映不同融合算法的语义性能。表1显示了定量分割结果，其中我们选择SegFormer-B2和SegNeXt-Base模型进行评估。

无论采用哪种分割，我们的融合结果对于汽车、人和自行车等重要类别都达到了最高的 IoU。此外，我们的方法在其他类别中也获得了令人印象深刻的分数。因此，所有三种分割模型在我们的融合图像上都实现了最高的平均 IoU (mIoU)。我们将这一优势归因于两个因素。一方面，我们部署多个语义感知任务，包括边界分割、语义分割和二值分割，以协同约束语义特征的提取。我们还设计了语义注入模块，以显式地将语义信息注入融合网络。因此，融合结果包含丰富的语义信息，同时呈现出令人印象深刻的视觉吸引力。另一方面，我们首次提出在特征级别将语义信息注入到融合网络中，这使得我们的融合结果与大多数高级语义模型更加兼容。此外，SeAFusion 在大多数类别和 mIoU 上取得了次优分数，这表明图像级语义约束可能不足以保留足够的语义信息，同时无法有效推广到其他模型。另一种语义驱动的方法，即 TarDAL，在语义分割上并没有表现出优越的性能，因为它使用对象检测任务来指导图像融合。

4.3.2.定性比较与分析

可视化分割结果如图 15 所示。在第一个场景中，BANet 仅在我们的方法和 TarDAL 生成的融合图像上识别自行车。不幸的是，TarDAL 没有提供有关隐藏在灌木丛中的行人的足够信息。此外，除了 RFN-Nest、U2Fusion、TarDAL、SeAFusion 和我们的 PSFusion 之外，分割模型无法根据大多数算法合成的融合结果正确分割远处的车辆和行人。在第二种情况下，只有 FusionGAN、RFN-Nest 和我们的方法提供了有前途的融合图像，使 SegFormer 能够正确分割路边自行车和远处的汽车以及行人。此外，我们可以注意到，在第三个场景中，SegNeXt只能从RFN-Nest、SwinFusion、SeAFusion和我们的PSFusion生成的融合图像中分割隐藏在车辆后面的人。定量和定性比较都充分验证了所提出的方法在高级视觉任务中优于最先进的图像融合算法的优势。

4.4.探索图像级融合在高级视觉任务中的优势和潜力

4.4.1定量分析

事实上，利用多模态图像的互补特性来提高高级视觉任务性能的另一种主流方案是基于特征级融合的方案。然而，该方案受到复杂特征融合的限制，通常利用古老的骨干网作为特征提取网络。值得注意的是，图像级融合可以合成包含互补信息的单个融合图像，可以直接将其输入到最先进的分割模型中，而无需任何重新设计。表2展示了图像级融合和特征级融合在语义分割任务上的定量比较结果。

显然，大多数基于特征级融合的方案都采用 ResNet [63] 作为特征提取网络。大多数这些方案的平均并集交集（mIoU）约为 55%，只有 MFNet 的 mIoU 达到 57.34%。即使是最新的算法，例如 LASNet 和 MDRNet，在 mIoU 上也只能分别达到 54.91% 和 56.78% 的分数。值得注意的是，CMX 通过利用更先进的主干网（即 SegFormer [48]）作为特征提取网络，在多模态分割领域实现了新的最先进（SOTA）。即使采用轻量级配置（即 SegFormer-B2），CMX 仍然优于其他算法。然而，特征级融合通常需要两个单独的特征提取网络来提取语义特征，这将显着增加参数数量，特别是在使用大规模骨干网络时。

CMX的成功启发我们将融合结果直接输入到现有的大规模分割模型中以提高分割性能。如表 2 所示，虽然我们的 PSFusion 在大多数类别中仅实现了次优 IoU，但它在各个类别中的表现相对平衡。特别是，当我们使用 SegNeXtLarge [66] 对融合结果进行语义分割时，PSFusion 实现了与 CMX-B4 相当的分割性能（即 mIoU）。即使使用 SegFormer 作为分割模型，我们的方案也比基于特征级融合的主流多模态分割方法更具竞争力。此外，另一种基于图像级融合的解决方案SeAFusion也表现出了出色的性能。上述情况表明，图像级融合方案可以有效地结合多模态输入和新颖的单模态语义分割技术的优点，并产生优异的分割性能。特别是在大规模模型时代，单峰分割技术正在迅速发展。图像级融合可以迅速将最先进的单模态分割模型与多模态特性相结合，而无需重新设计，从而更好地应对复杂的现实环境。

4.4.2.定性分析

不同方案的可视化结果如图16所示。虽然大多数方法可以准确地分割场景中的对象，但它们在分割小对象方面表现出差异。例如，在第一个场景中，除了 MDRNet 和我们的解决方案之外，大多数方法都无法正确识别远处的行人。在第二种情况下，我们的解决方案和 GMNet 可以从场景中精确分割出四个停车站，而其他方法只能识别三个甚至更少的停车站。我们解决方案的这一优势源于多模态图像中互补信息的有效集成，以及通过图像级融合消除不相关和冗余信息。定量和定性分析都表明，语义驱动的图像级融合与最先进的单模态分割模型的结合与基于特征级融合的多模态分割方案相当。特别是，随着单模态语义分割技术的快速进步，基于图像级融合的方案更具吸引力和前景。

4.5.消融研究和讨论

4.5.1基于掩模的融合损耗分析

我们在对比度掩模和显著目标掩模的基础上构建了一个特定的强度损失来保持融合图像的视觉吸引力。因此，我们进行了一项消融研究，使用基本强度损失来取代掩模强度损失，以观察掩模强度损失的特殊功能。初始强度损失公式为：

如图 17(b) 所示，没有基于掩模的损失的约束，融合结果的表现更加平淡。具体来说，融合结果可以包含补充信息，而重要目标被削弱，并且纹理细节受到冗余热辐射信息的影响。此外，表3中的定量结果还表明，在去除基于掩模的损失后，反映融合性能的所有指标均显着下降。这种困境归咎于这样一个事实：如果没有特定掩模的指导，融合网络无法有目的地去除有害信息并保留重要信息。

4.5.2.场景保真度路径分析

引入场景保真度路径来约束融合特征，以保留尽可能多的有关源图像的完整信息。如图17（c）所示，去除场景保真路径后，融合图像的视觉效果也受到轻微影响。融合结果无法保持突出物体的强度而不失真。相比之下，我们的 PSFusion 可以在基于掩模的融合损失和场景保真度路径的协同约束下保留重要信息并处理恶劣环境。此外，表3中的定量结果也表明，如果移除SFP，我们的模型将无法保持出色的融合性能。

4.5.3.稀疏语义感知路径分析

我们的方法依赖于稀疏语义感知路径（S2P2）来提取足够的语义特征并通过语义注入模块将它们注入到融合网络中。如表4所示，去除稀疏语义感知路径后，分割模型在融合图像上的分割性能显着下降。我们认为这是由于如果没有稀疏语义感知路径来约束语义特征的提取，融合网络就无法充分保留语义信息。

4.5.4.深度语义融合模块分析

基于交叉注意力机制的深度语义融合模块（PSFM）被开发来聚合从源图像中提取的语义特征。我们用表面细节融合模块替换 PSFM，以验证其在聚合语义特征方面的有效性。如表 4 所示，如果不部署 PSFM 来合并不同域的语义特征，则融合图像上的分割模型的性能会下降。这表明从全局角度整合上下文语义特征可以充分利用和融合语义信息。

4.5.5分割性能讨论

考虑到图4，我们的稀疏语义感知路径能够输出语义分割结果。然而，与语义分割相关的设计相对简化，因为我们的主要目标是生成包含丰富语义信息的融合图像。语义分割在这种情况下充当辅助任务。如表 5 所示，与通过将融合图像输入 SegNeXt 获得的分割结果相比，我们的模型直接输出的分割结果有很大的改进空间。这个问题背后有几个原因。首先，我们采用一个简单的主干，即ResNet-34作为基本特征提取网络，并引入两个表面特征提取块来缓解高层和低层视觉任务之间的需求冲突，这不可避免地影响高层视觉任务的性能。水平视觉任务。其次，我们的S2P2仅利用简单的CNN来预测分割结果，而不涉及更多新颖的解码器，以避免增加计算负载。最后，我们将语义分割定位为辅助任务，而不设计特定的模块来利用图像融合的先验来促进语义分割任务的改进。为了解决这些问题，一个潜在的改进方向是引入多任务学习，以充分利用图像融合和高级视觉任务的互惠互利，并将更先进的主干网络集成到网络结构中。

5.结论

在这项研究中，我们提出了一种名为 PSFusion 的实用图像融合网络，它基于渐进语义注入和场景保真度约束。一方面，设计了包括边界分割、语义分割和二值分割的稀疏语义感知分支来提取足够的语义特征。然后，我们开发了一个语义注入模块，以逐步将这些语义特征集成到融合网络中。另一方面，我们在场景恢复分支中引入了场景保真度路径，负责重建源图像以保持融合特征的场景保真度。此外，我们基于对比度掩模和显着目标掩模构建了特定的融合损失，以保证融合图像的视觉吸引力。场景恢复分支和语义感知分支的协同作用使我们的融合结果能够为人类视觉观察提供信息，并有利于机器视觉感知。大量的实验证明了我们的 PSFusion 在视觉质量和高级语义方面优于现有图像融合算法。此外，定量和定性分析证明了图像级融合相对于高级视觉任务的特征级融合的潜力，特别是在大规模模型时代。特别是，随着单模态语义分割技术的快速进步，语义驱动的图像级融合可以充分融合多模态数据和SOTA单模态分割技术的优势，无需任何重新设计，从而更好地应对复杂场景。