多模态融合学习（六）——2024TPAMI：CFNet: An infrared and visible image compression fusion network

图像融合旨在在有限的物理空间内获取更完整的图像表示，以更有效地支持实际视觉应用。尽管当前流行的红外与可见光图像融合算法已经考虑了实际应用，但它们并未充分考虑图像数据的冗余性和传输效率。为了解决这一局限性，本文提出了一种基于联合CNN和Transformer的红外与可见光图像压缩融合网络，称为CFNet。首先，将变分自编码器图像压缩的思想引入图像融合框架，在保持图像融合质量的同时实现数据压缩并减少冗余。此外，提出了一种联合CNN和Transformer的网络结构，综合考虑CNN提取的局部信息和Transformer强调的全局长距离依赖关系。最后，基于感兴趣区域的多通道损失被用于指导网络训练。该方法不仅能够直接融合彩色可见光和红外图像，还可以将更多位分配给感兴趣的前景区域，从而实现更优的压缩比。广泛的定性和定量分析证实，所提出的压缩融合算法达到了最先进的性能。特别是，速率-失真性能实验展示了该算法在数据存储和传输方面的巨大优势。源代码可在以下地址获取：https://github.com/Xiaoxing0503/CFNet。

1.2摘要解析

这段文字描述了一篇关于红外与可见光图像融合的学术论文，提出了一种名为CFNet的压缩融合网络。

1. 研究背景与问题

图像融合的目标：
图像融合是将来自不同传感器（如红外和可见光）的图像信息整合为单一图像，提供更全面的表示。这在实际应用（如目标检测、夜视）中非常重要，因为单一传感器通常无法捕捉所有必要信息。
现有问题：
当前主流的红外与可见光融合算法虽然注重实用性，但忽略了数据冗余和传输效率。在实际场景中，融合后的图像可能包含大量冗余信息，导致存储和传输成本高，尤其是在带宽受限或存储空间有限的情况下。

2. 创新点：CFNet

核心贡献：
CFNet结合了压缩和融合两个任务，提出了基于联合CNN和Transformer的网络结构，同时引入变分自编码器（VAE）的压缩思想。这种设计不仅保持了融合质量，还优化了数据效率。
命名：
CFNet（Compression Fusion Network）反映了其双重目标：压缩（Compression）和融合（Fusion）。

3. 方法解析

(1) 变分自编码器（VAE）压缩

原理：
VAE是一种生成模型，通过编码器将输入压缩为低维潜在表示（latent representation），再通过解码器重建图像。CFNet将VAE的压缩机制引入融合框架，在融合过程中减少数据冗余。
优势：
- 压缩：降低图像数据的比特率（bitrate），减少存储和传输需求。
- 质量保持：通过VAE的优化，确保压缩后的图像仍保留关键信息，适合后续融合。
解析：
传统融合算法直接生成完整图像，而CFNet先将红外和可见光图像压缩为潜在表示，再进行融合。这样既减少了冗余，又避免了融合后数据量过大的问题。

(2) 联合CNN和Transformer结构

CNN的作用：
卷积神经网络擅长提取局部特征（如边缘、纹理），在图像融合中可以捕捉红外和可见光图像的细节。
Transformer的作用：
Transformer通过自注意力机制建模全局长距离依赖关系，能够捕捉图像中远距离像素间的关联性（如整体场景结构）。
联合设计：
CFNet结合了两者的优势：
- CNN提取局部特征，确保细节保留。
- Transformer建模全局上下文，提升融合图像的整体一致性。
解读：
这种混合架构在多模态任务中越来越常见。CNN提供空间局部性，而Transformer弥补了CNN对全局信息的不足，尤其适合红外与可见光这种模态差异大的任务。

(3) 多通道损失与感兴趣区域（ROI）

损失函数设计：
- 多通道损失：针对不同通道（如RGB颜色通道和红外强度通道）分别计算损失，确保融合图像在各通道上的质量。
- 基于ROI：将更多计算资源（比特）分配给前景感兴趣区域（如目标物体），背景区域则允许更高压缩率。
实现效果：
- 直接融合彩色可见光和红外图像，无需额外的预处理。
- 前景区域细节更丰富，压缩比更高，适合实际应用（如监控、自动驾驶）。
解析：
这种损失设计借鉴了图像压缩中的“感知驱动”思想，通过关注ROI提升主观质量和任务相关性。

4. 实验与性能

定性分析：
视觉效果上的对比，可能是融合图像的清晰度、色彩还原度等。
定量分析：
使用指标如PSNR（峰值信噪比）、SSIM（结构相似性）评估融合质量，以及压缩比（compression ratio）评估数据效率。
速率-失真性能：
- 速率：压缩后的比特率。
- 失真：压缩和融合后与原始图像的差异。
- CFNet在速率-失真曲线上表现出色，证明其在低比特率下仍能保持高质量输出。
解读：
速率-失真实验是压缩领域的经典评估方法，CFNet的优势表明它在存储和传输效率上显著优于传统融合算法，可能接近甚至超越专用压缩算法（如JPEG）在融合任务中的表现。

二. introduction

2.1 introduction翻译

模式识别技术凭借其识别和解释数据中复杂模式的能力，已成为现代计算科学的重要分支。作为模式识别的延伸，数据融合技术广泛应用于各个科学和工程领域。其目的是整合多个数据源，生成比单一数据源更全面、更准确的信息，同时占用更少的空间，从而显著提升决策系统的准确性和效率。类似地，数据压缩的目的是在保持原始空间大小内尽可能多的全面信息的同时减少空间占用。融合图像信息丰富，视觉效果优越，能更好地执行实际视觉任务[1]，如语义分割、视频监控和目标检测等。红外与可见光图像融合是数据融合的一个分支。其主要目标是生成融合图像，并保留原始红外图像的热辐射信息和原始可见光图像的纹理梯度信息。通常，红外与可见光图像融合技术可大致分为基于深度学习的算法和传统算法。传统算法大致可分为多尺度变换算法[2]、稀疏表示算法[3]、基于子空间的算法[4]、基于显著性的算法[5]和混合方法[6]等。随着人工智能的普及，近年来基于深度学习的红外与可见光图像融合算法蓬勃发展[7]。主流深度学习算法包括基于端到端的方法[8]、基于自编码器（AE）的方法[9]、基于生成对抗网络（GAN）的方法[10]和基于Transformer的图像融合算法[11]。典型的图像融合算法在视觉质量上没有明显差异，因此适应实际任务的图像融合算法组件已成为主流。例如，RFNet[12]在图像融合中考虑配准，有效缓解了融合后图像伪影的问题。SeAFusion[13]将融合网络与语义分割网络级联，使融合任务满足高级视觉任务的要求。PIAFusion[14]设计了异常光照条件下的图像融合算法，有效处理欠曝光和过曝光等极端场景。SDNet[8]设计了一个小型图像融合模型，以实现实时融合效率。

然而，这些图像融合方法在强调实际任务需求的同时，未能充分考虑图像数据的冗余性和传输效率。一个显著的例子是红外与可见光图像融合在监控中的应用。大量图像数据对存储空间和相关成本提出了挑战。因此，全面考虑与图像融合数据相关的存储和传输问题变得至关重要。如图1(a)所示，现有的图像融合算法使用融合算法融合原始图像，随后将其压缩成比特流进行存储或传输。通常，为了保留原始图像的最大信息，大多数融合图像采用无损压缩格式存储。这种做法需要大量的存储空间。或者，使用有损压缩方法会损害图像的视觉质量。我们希望设计一个联合网络，将红外与可见光图像融合和数据压缩统一在一个框架内。图1(b)展示了所提出的图像融合与压缩算法思路。原始图像通过编码器融合和压缩，获得用于存储和传输的数据流。数据流通过融合与压缩解码器生成最终融合图像。

图像融合技术可以提高图像的信息含量，使模式识别系统能够从更丰富的数据中学习并提高识别准确性。当与高效压缩算法结合时，可以在不牺牲图像质量的情况下实现有效的特征提取和识别。整合图像融合与压缩的网络可以在处理前降低数据的维度和复杂性。这种方法使后续的模式识别算法能够更快地处理大规模数据集，同时不影响图像质量。基于上述讨论，我们初步探索了图像融合与图像压缩任务之间的协同关系。不可避免地，我们面临一些障碍：(1) 设计一个有效的压缩融合网络至关重要。图像融合方法主要强调信息提取和合成，而压缩网络则针对图像数据冗余的消除。这种设计方法有助于数据的全面整合和优化。(2) 开发一个新的特征提取模块。红外与可见光图像的融合要求网络不仅关注局部信息，还需具备全局建模能力[15,16]。同时，图像压缩需要提取特征之间的关系以利用冗余。尽管之前的工作使用CNN和Transformer同时获取局部和全局信息，但它们对特征的使用仍是分开的。例如，TCCFusion[17]等人使用CNN建模局部特征，然后使用Transformer挖掘全局依赖性。(3) 设计一个适合彩色可见光图像的高效损失策略。图像包含不重要的背景区域和感兴趣的前景区域。对不重要区域使用高压缩比，对重要前景区域使用低压缩比，以实现高效压缩。此外，大多数现有图像融合算法，如MFIFusion[18]，通常将彩色图像转换到YCbCr空间，仅使用亮度（Y）通道作为深度网络的输入以获得融合亮度通道。然而，仅依赖亮度（Y）通道作为融合压缩网络的输入，会引发对色度通道（Cb和Cr）压缩的担忧。确保所有通道的全面压缩对本研究目标至关重要。为了解决这些问题，本文提出了一个联合CNN和Transformer的压缩融合模型。首先，我们的目标是在保证图像融合质量的同时提高计算机存储图像的能力或网络传输图像的能力。因此，我们将变分自编码器（VAE）图像压缩模型引入图像融合框架。具体来说，通过图像编码器将图像映射到潜在特征空间，便于后续量化编码过程。然后，采用超先验编解码器推导特征点的概率分布函数，生成更紧凑的特征。这最大程度地消除了统计依赖性。随后应用量化编码生成用于存储和传输的比特流，再解码生成最终融合图像。其次，我们将CNN和Transformer嵌入同一模块，以聚合局部和非局部信息。Transformer在图像融合中的显著成就引起了广泛关注，主要归因于其捕捉非局部信息的熟练能力。同时，局部信息显著影响图像融合性能。因此，有必要结合卷积神经网络（CNN）捕捉局部上下文信息和Transformer处理全局依赖性的优势，以有效执行图像融合任务。最后，网络训练由多通道像素损失和多通道梯度损失指导。此外，为了优化压缩比，融合损失纳入了感兴趣区域的前景掩码。这使压缩融合网络能够自动为感兴趣的前景区域分配更多比特，同时为背景分配更少比特。这种方法有效地保护关键信息，同时最小化冗余。总之，主要贡献可以总结为：(1) 据我们所知，这是首次将VAE压缩框架引入图像融合领域。这允许更紧凑的特征表示。在确保图像融合质量的同时，还提高了图像存储和传输的效率。(2) 提出了一种新颖的联合CNN和Transformer网络结构。它在同一尺度上聚合了CNN建模局部信息和Transformer建模全局依赖性的优势。(3) 设计了一种新颖的感兴趣区域多通道损失函数来指导网络训练。不仅可以直接融合彩色可见光和红外图像，还可以将更多比特分配给感兴趣的前景区域，从而实现更优的压缩比。本文的其余部分如下。第2节简要介绍了图像融合和图像压缩的相关工作。第3节描述了所提出的方法。第4节展示了所提出方法相对于其他替代方案的优势，特别是速率-失真性能。第5节给出了结论。

2.2 introduction解析

1. 背景与问题

模式识别与数据融合：
- 模式识别是计算机科学中的核心技术，用于从数据中提取模式。数据融合是其延伸，通过整合多源数据（如红外和可见光）提升信息质量，支持下游任务（如目标检测）。
- 问题：传统融合算法关注融合质量，但忽略了数据冗余和传输效率。例如，在监控场景中，融合图像的大数据量增加了存储和传输成本。
数据压缩：
- 数据压缩旨在减少数据占用空间，同时保留关键信息。传统方法（如无损压缩）存储成本高，有损压缩则损害质量。
目标：
- 论文希望通过联合融合与压缩，解决冗余和效率问题，同时支持模式识别任务。

2. 现有技术与局限性

传统融合算法：
- 包括多尺度变换（MST）、稀疏表示（SR）、子空间方法、显著性方法和混合方法。这些方法依赖手工特征，灵活性有限。
深度学习方法：
- 端到端方法（如SDNet）、自编码器（AE）、GAN和Transformer方法近年来兴起，视觉效果提升显著。
- 任务导向设计：如RFNet解决伪影，SeAFusion支持语义分割，PIAFusion处理极端光照。
局限性：
- 这些方法未充分考虑数据冗余和传输效率，尤其在大数据量场景（如监控）中表现不足。

3. 创新点：联合融合与压缩网络

整体思路：
- 图1(b)展示了从原始图像到融合压缩比特流，再到解码生成融合图像的流程。与传统方法（图1(a)：先融合再压缩）不同，新方法在编码阶段同时完成融合和压缩。
技术细节：
1. VAE压缩框架：
  - 原理：变分自编码器（VAE）将图像编码为潜在特征空间，通过量化生成比特流，再解码为融合图像。
  - 超先验编解码：利用特征的概率分布减少统计依赖性，提升压缩效率。
  - 解析：VAE在压缩领域已有成功应用（如Ballé的超先验模型），将其引入融合是创新点，确保融合质量的同时降低比特率。
2. 联合CNN与Transformer：
  - 设计：将CNN和Transformer嵌入同一模块，CNN提取局部特征（如纹理），Transformer建模全局依赖（如场景结构）。
  - 对比：不同于TCCFusion的顺序使用（CNN后接Transformer），这里是并行聚合，提升特征融合效率。
  - 解析：这种混合架构在多模态任务中效果显著，尤其适合红外与可见光图像的差异性。
3. 多通道损失与ROI优化：
  - 损失：包括像素损失（衡量像素级误差）和梯度损失（保护纹理细节），覆盖所有通道（RGB和红外）。
  - ROI导向：通过前景掩码调整比特分配，重要区域低压缩率，背景高压缩率。
  - 解析：类似JPEG2000的ROI压缩，但结合深度学习动态分配比特，提升了任务相关性。

4. 贡献与意义

首次引入VAE：
- 将压缩与融合结合，生成紧凑特征表示，兼顾质量和效率。
新型网络结构：
- CNN和Transformer的联合设计优化了局部和全局信息的利用。
ROI多通道损失：
- 支持彩色图像直接融合，动态分配比特，提升压缩比。
应用价值：
- 在存储和传输受限的场景（如监控、遥感）中具有显著优势，支持模式识别的高效处理。

5. 挑战与解决

挑战1：融合与压缩的平衡：
- 融合关注信息合成，压缩关注冗余消除。VAE框架通过潜在空间整合两者。
挑战2：特征提取：
- 需要同时具备局部和全局建模能力。联合CNN和Transformer模块解决了这一问题。
挑战3：彩色图像压缩：
- 传统方法仅用Y通道，忽略色度。新损失策略覆盖所有通道，确保全面压缩。

6. 实验与展望

速率-失真性能：
- 将在第4节展示，预计在低比特率下仍保持高质量，优于传统方法。
未来方向：
- 可扩展到视频融合或多模态任务，进一步优化实时性和压缩效率。

总结

这篇论文提出了一个创新的红外与可见光图像融合与压缩联合框架，利用VAE实现压缩，CNN与Transformer联合提取特征，并通过ROI导向的多通道损失优化比特分配。其核心贡献在于将压缩任务无缝融入融合流程，解决了传统方法的冗余和效率问题。技术上结合了生成模型（VAE）、卷积网络和注意力机制的优势。

三. related work

3.1 related work翻译

基于深度学习的图像融合

1 典型图像融合

近年来，基于深度学习的图像融合算法因其强大的非线性拟合能力而备受关注。这些算法可以分为四种主要类型： (1) 基于自编码器（AE）的图像融合方法：基于AE的方法通过训练编码器和解码器实现单一源图像的特征提取和图像重构。然后，使用手动设计的融合规则融合编码器提取的特征。解码器根据融合后的特征完成图像重构。作为经典的基于AE的融合算法，DenseFuse [9] 设计了密集块编码层，以充分提取和有效利用特征。MFIFusion [18] 使用双尺度分解和多级特征注入，有效利用网络中间层的有价值信息，丰富融合图像的视觉效果。FSFusion [19] 将边缘先验信息嵌入网络，并设计了三重融合机制，以实现高对比度、清晰细节的融合图像。 (2) 基于生成对抗网络（GAN）的图像融合方法：基于GAN的方法考虑了真实数据（ground truth），通过判别器迫使生成器从概率角度生成具有红外强度和可见光梯度的融合图像。FusionGAN [10] 首次将GAN引入图像融合领域，通过判别器对融合图像和可见光图像的评分，迫使生成器生成更多纹理细节。然而，单一对抗机制容易导致融合不平衡。为此，后续研究如DDcGAN [20] 和 TarDAL [21] 使用双判别器来平衡不同源图像的分布。 (3) 端到端融合方法：端到端方法直接从原始图像学习融合函数，已成为流行的深度学习算法。作为代表性的端到端图像融合算法，SDNet [8] 引入了压缩分解的思想，迫使融合结果包含更多场景细节。ASFFuse [22] 提出了自适应特征选择策略，以减少噪声特征图对融合结果的影响，并实现更好的视觉效果。 (4) 基于Transformer的图像融合方法：CNN局限于提取局部感受野，缺乏揭示源图像中非局部相互关系的能力。为此，研究者尝试将Transformer引入图像融合领域，旨在实现从局部到全局的原始图像感知。为了同时利用CNN的局部特征提取能力和Transformer的全局建模能力，SePT [23] 和 TCCFusion [17] 首先使用CNN进行局部特征建模，然后利用Transformer探索全局依赖性。

2 实践驱动的图像融合

尽管典型的图像融合方法在追求主观视觉质量和客观评价指标方面取得了令人满意的结果，但它们忽略了现实世界的要求。因此，近年来衍生出了许多更实用的图像融合算法： (1) 未配准图像融合：未经严格配准的图像融合常导致伪影。为解决这一问题，出现了许多将配准融入图像融合的方法。SuperFusion [24] 在处理配准和融合时，考虑了高级视觉任务的语义需求。与将图像配准和融合视为独立问题不同，MURF [25] 将这些任务交织在一起，使它们相互增强。 (2) 高级视觉任务驱动的图像融合：为了确保融合图像符合高级视觉任务的需求，Tang等人首次提出了语义驱动的图像融合算法，称为SeAFusion [13]。SeAFusion 将融合网络与语义分割网络级联，使语义数据反馈到融合网络。类似地，Liu等人提出的 TarDAL [21] 联合优化图像融合和目标检测，在融合图像中实现更高的检测精度。 (3) 极端条件下的图像融合：在实际应用中，处理极端场景（如欠曝光和过曝光）往往至关重要。因此，针对异常光照条件设计的图像融合算法应运而生。PIAFusion [14] 设计了一个光照感知子网络，辅助融合网络训练，并根据光照条件自适应整合有意义的信息。DIVFusion [26] 引入了场景光照解缠网络和纹理对比增强融合网络，建立了图像融合与图像增强之间的有效耦合和互助关系。 (4) 实时图像融合：对于高级视觉任务，早期预处理过程（如图像融合）通常具有高实时性要求。SDNet [8] 通过减少模型参数数量优化图像融合操作效率。最近，APWNet [27] 设计了一个简单网络，并结合检测模型动态学习像素级权重以进行图像融合，实现了最快的融合网络。

3 图像压缩

图像压缩技术作为图像处理领域的关键技术之一，在缓解存储和传输开销方面具有重要意义。在过去的几十年中，出现了许多传统压缩标准。具体来说，传统图像压缩大多使用固定变换方法和量化编码框架，例如离散余弦变换和离散小波变换。作为压缩标准之一，JPEG [28] 在过去几十年中在图像压缩领域发挥了关键作用，并且至今仍被广泛使用。JPEG2000 [29] 图像压缩标准首次提出了感兴趣区域压缩方法。它改变每个区域的压缩率和质量，使指定为重要区域的部分保持高质量。传统压缩标准依赖于手动技术。近年来，基于学习的图像压缩方法越来越受到关注。Ballé等人首次提出了通过最小化速率-失真权衡的图像压缩模型。然后，他们引入了一个包含超先验网络的VAE模型[30]来改进图像压缩。为了实现更好的比特率估计，[31] 扩展了[30]的工作，并使用自回归模型改进图像压缩，首次在速率-失真性能上超过了传统BPG压缩算法。最近，LIC-TCM [32] 引入了一个高效的并行Transformer-CNN模块，启发了本文提出的联合CNN和Transformer模型。

3.2 related work解析

1. 图像融合基于深度学习

1. 典型图像融合

背景：
- 深度学习因其非线性建模能力在图像融合领域迅速发展，超越了传统方法（如多尺度变换、稀疏表示）。
分类与技术细节：
1. AE-based方法：
  - 原理：自编码器（AE）通过编码器提取特征，解码器重建图像，手动融合规则整合特征。
  - 代表性工作：
    - DenseFuse：使用密集块（dense block）增强特征提取，类似DenseNet的思想。
    - MFIFusion：通过双尺度分解和多级特征注入，优化中间层信息利用。
    - FSFusion：引入边缘先验和三重融合，提升细节和对比度。
  - 解析：AE方法简单直观，但依赖手动规则，限制了灵活性。
2. GAN-based方法：
  - 原理：生成对抗网络（GAN）通过对抗训练生成融合图像，判别器监督融合质量。
  - 代表性工作：
    - FusionGAN：首个GAN融合算法，强调纹理细节，但单一判别器易失衡。
    - DDcGAN/TarDAL：引入双判别器，平衡红外和可见光信息。
  - 解析：GAN方法能生成高质量图像，但训练不稳定，需精心设计对抗损失。
3. 端到端方法：
  - 原理：直接从输入到输出学习融合函数，避免手动规则。
  - 代表性工作：
    - SDNet：引入压缩分解，增强场景细节。
    - ASFFuse：自适应特征选择，减少噪声影响。
  - 解析：端到端方法简化流程，适合大数据训练，但对网络设计要求高。
4. Transformer-based方法：
  - 原理：Transformer通过自注意力建模全局依赖，弥补CNN局部感受野的不足。
  - 代表性工作：
    - SePT/TCCFusion：CNN提取局部特征，Transformer建模全局关系。
  - 解析：混合架构是趋势，但如何高效融合CNN和Transformer仍需探索。

2 实践驱动的图像融合

背景：
- 典型融合方法关注视觉质量，但忽略实际任务需求，催生了实践导向的算法。
分类与技术细节：
1. 未配准融合：
  - 问题：未配准导致伪伪影。
  - 解决：SuperFusion/MURF将配准与融合联合优化。
  - 解析：配准与融合的协同优化提升鲁棒性。
2. 高级任务驱动：
  - 代表：SeAFusion/TarDAL支持语义分割和目标检测。
  - 解析：任务反馈机制提升融合针对性。
3. 极端条件：
  - 代表：PIAFusion/DIVFusion处理光照异常。
  - 解析：光照感知和增强的结合适应复杂场景。
4. 实时融合：
  - 代表：SDNet/APWNet优化效率。
  - 解析：轻量化设计满足实时需求。

3. 图像压缩

传统方法：
- 技术：JPEG（DCT）、JPEG2000（DWT+ROI压缩）。
- 解析：依赖固定变换，灵活性有限。
基于学习的方法：
- 发展：
  - Ballé提出VAE+超先验模型，优化速率-失真。
  - 自回归模型超越BPG。
  - LIC-TCM引入Transformer-CNN混合模块。
- 解析：学习方法通过数据驱动超越传统标准，Transformer的应用是新趋势。

4. 总结与启发

融合趋势：深度学习方法从视觉质量转向任务驱动，Transformer与CNN结合成主流。
压缩趋势：从固定变换到学习优化，VAE和混合模型提升效率。
启发：论文可能基于VAE和Transformer-CNN设计融合压缩网络，解决冗余和效率问题。

4.方法

4.1方法翻译

1.问题定义

我们首先定义本研究试图解决的问题，即如何有效地融合大规模、高维且异构的数据。在多源图像处理领域，红外与可见光图像融合被应用于各种实际场景。其目的是结合红外图像的热辐射信息和可见光图像的颜色及纹理信息。这提供了比任何单一图像更全面、更准确的图像。同时，随着图像数据规模和复杂性的增加，传统图像融合技术在融合质量和数据存储方面面临巨大挑战。

为应对这些挑战，与以往仅关注融合图像质量的重点不同，我们提出图像融合方法应考虑存储和传输引起的空间利用问题，即面向压缩的图像融合。面向压缩融合的核心思想是将图像压缩技术融入图像融合过程。主要目标是在确保最佳融合质量的同时，尽量减少数据占用的空间。在红外与可见光图像融合应用中，全局信息提供了整体热辐射图景，而局部信息揭示了细节，如微妙的热辐射和物体边缘。传统融合网络可能难以平衡这些方面，因此我们设计了一个联合CNN和Transformer结构，以提取源图像中的局部和全局相互关系。此外，在压缩概念中，感兴趣区域（ROI）是一个关键元素。类似地，在红外与可见光图像的融合过程中，我们将ROI指定为包含重要热辐射信息和分割前景目标的区域。相反，相对不重要的背景（BG）区域通常包含较少信息。因此，在整个压缩和融合过程中，更多资源分配给ROI，从而保留更多重要信息。基于前述讨论，通过端到端训练压缩融合模型，我们将总体优化损失定义为：

$\mathcal{L} = \mathcal{R} + \lambda \cdot \mathcal{L}_f \quad (1)$

其中 $\mathcal{R}$ 是码率，表示压缩后的预期码长（比特率）， $\mathcal{L}$ 是融合损失， $\lambda$ 是用于平衡码率和融合失真的权衡系数。通过最小化原始图像 x 的数据分布 $p_x$ 的期望，实现最小平均码长 $\mathcal{R}$ 。 $mathcal{R}$ 由潜在表示与实际分布之间的香农交叉熵给出：

$\mathcal{R} = E_{x \sim p_x} \left[ -\log_2 p_{\hat{y}|\hat{z}}(\hat{y}|\hat{z}) - \log_2 p_{\hat{z}}(\hat{z}) \right] \quad (2)$

其中x 表示原始输入图像， $\hat{y}$ 和 $\hat{z}$ 分别表示量化的潜在表示和超潜在表示。融合损失包括ROI损失（ $\mathcal{L}_{roi}$ ）和背景损失（ $\mathcal{L}_{bg}$ ），计算公式为：

$\mathcal{L}_f = \mathcal{L}_{roi}(I_1; I_2; M) + \alpha \cdot \mathcal{L}_{bg}(I_1; I_2; 1 - M) \quad (3)$

其中 $\mathcal{L}_{roi}(I_1; I_2; M)$ 是感兴趣区域的损失函数，用于评估两幅图像 $I_1$ 和 $I_2$ 在ROI区域的相似性或差异。背景损失 $\mathcal{L}_{bg}(I_1; I_2; 1 - M)$ 使用 1 - M作为掩码，评估图像 $I_1$ 和 $I_2$ 在背景区域的表现。 $I_1$ 和 $I_2$ 表示原始输入图像，M表示ROI前景掩码，1 - M 表示背景掩码， $\alpha$ 是ROI和背景区域之间的权衡系数。为了聚焦于ROI区域， $\alpha < 1$ 。(原文这里公式出错)

2 总体框架

我们提出的方法使用了变分自编码器，这是图像融合领域的首次尝试。

如图2所示，所提方法包括图像编码器模块 $g_a$ 、超先验编码器模块 $h_a$ 、超先验解码器模块 $h_s$ 、图像解码器模块 $g_s$ 以及两个量化和熵编码模块 $U|Q_y$ 和 $U|Q_z$ 。总之，红外图像 $I_{ir} \in \mathbb{R}^{H \times W \times 1}$ 和可见光图像 $I_{vi} \in \mathbb{R}^{H \times W \times 3}$ 首先被级联输入图像编码器模块 $g_a$ ，以获得潜在特征表示 y。这些特征输入超先验编码器模块 $h_a$ ，生成超先验表示 z。潜在特征表示 y 和超先验表示 z 通过量化过程转换为离散形式。z 被算术编码和解码为量化的超潜在表示 $\hat{z}$ 。通过超先验解码器 $h_s$ ， $\hat{z}$ 生成高斯条件 $\mathcal{N}(\mu, \sigma)$ 的均值 $\mu$ 和尺度 $\sigma$ 。y根据特征的概率分布进行编码，该分布依赖于超先验编码器输出的统计数据 $\mathcal{N}(\mu, \sigma)$ 。然后从概率分布中采样特定的潜在特征 $\hat{y}$ 。新的 $\hat{y}$ 通过图像解码器 $g_s$ 生成最终融合图像。以下详细描述整个过程。

输入灰度红外图像 $I_{ir} \in \mathbb{R}^{H \times W \times 1}$ 和彩色可见光图像 $I_{vi} \in \mathbb{R}^{H \times W \times 3}$ 被级联并送入图像编码器 $g_a$ 。 $g_a$ 由三组下采样残差块（DRB）和一个联合CNN与Transformer模块（JCT）组成，最后通过一个下采样卷积层。在每个残差块中，输入经历一系列变换：通过带有LeakyReLU激活和步幅为2的卷积层，随后通过带有广义除法归一化（GDN）的卷积层。输出然后与初始输入相加，生成残差块输出。值得注意的是，GDN已被证明是更适合图像重构或生成的非线性变换层[33]。JCT模块是一个聚合CNN局部建模能力和Transformer全局建模能力的模块，在第3.3节中详细介绍。下采样卷积层具有步幅为2，结束编码过程，生成潜在特征表示 y。图像编码期间图像大小缩小16倍。整个图像编码过程可表示为：

$y = g_a(Cat(x_1, x_2)) \quad (4)$

其中Cat 表示通道维度的级联操作。随后，潜在特征表示 y 输入超先验编码器 $h_s$ ，由下采样残差块、JCT和下采样卷积层组成。输出是超潜在特征表示 z，特征大小缩小4倍。整个超先验编码过程可表示为：

$z = h_a(y) \quad (5)$

其中 $h_a$ 是超先验编码器，将输入数据 y 映射为编码表示 z。此编码表明 z 旨在捕获 y 的关键信息，同时去除冗余和不相关部分，从而实现数据有效压缩。之后，z 被量化和算术编码生成超潜在比特流。比特流用于存储或传输的一部分。比特流被算术解码以获得量化的超潜在特征表示 $\hat{z}$ 。注意，熵编码是无损的，因此熵编码不参与训练。量化过程可表示为：

$\hat{z} = Q(z) \quad (6)$

其中 Q 表示量化和熵编码。在训练期间，量化通过均匀噪声u(-1/2, 1/2)近似。量化方法对解码和重构质量影响不大。因此，本文与大多数方法类似，使用计算复杂度低且易于操作的均匀噪声添加方法。然后，量化的超潜在特征表示 $\hat{z}$ 通过超先验解码器 $h_s$ 生成高斯条件的均值 $\mu$ 和尺度 $\sigma$ 。 $h_s$ 对应于 $h_a$ ，由上采样残差块、JCT和子像素卷积层组成。在上采样残差块（URB）中，输入首先通过带有LeakyReLU激活的子像素卷积层，随后通过使用逆广义除法归一化（IGDN）的卷积层。最终输出通过加法操作获得。子像素卷积层有助于缓解插值和反卷积相关的伪影。超先验解码过程可表示为：

$\mu, \sigma = h_s(\hat{z}) \quad (7)$

超先验网络提供两个值均值 $\mu$ 和尺度 $\sigma$ ，将 y 中的每个点描述为高斯分布的一部分。高斯建模的概率密度分布函数为：

$p(\hat{y}|\mu, \sigma) = \frac{2}{\sigma \sqrt{2\pi}} \exp\left( -\frac{(y - \mu)^2}{2\sigma^2} \right) \quad (8)$

根据每个像素值的概率分布函数，从概率分布中采样特定的潜在特征 $\hat{y}$ 。在测试过程中，根据概率分布，潜在特征表示 y 被量化和算术编码生成比特流。比特流用于存储或传输的另一部分。比特流被算术解码以获得量化的潜在特征表示 $\hat{y}$ 。最后，量化的潜在特征表示 $\hat{y}$ 输入 $g_s$ 以获得重构图像 $I_f$ ：

$I_f = g_s(\hat{y}) \quad (9)$

其中 $g_s$ 对应于 $g_a$ ，由三组上采样残差块和JCT模块组成，最后由子像素卷积层组成。

3 联合CNN与Transformer模块（JCT）

红外与可见光图像融合算法需要熟练提取局部纹理细节和建模非局部依赖性。在深度学习网络模型中，CNN专注于局部信息，而Transformer更关注全局相互关系。以往的工作尝试将CNN与Transformer结合。然而，它们的结合仍然是分开的。因此，本研究尝试将密集块和Swin-Transformer块结合，以充分整合两个模块的优势。

图3展示了本文提出的JCT。该模块包括两个阶段，结构相同，仅在多头注意力模块上有所不同。假设每个阶段的模块输入特征 $F_i \in \mathbb{R}^{H \times W \times C}$ 。特征 $F_i$ 输入1×1卷积层。然后，相同大小的特征张量在通道维度上分离：密集块的输入特征 $F_{cnn} \in \mathbb{R}^{H \times W \times c/2}$ 和Swin Transformer块的输入特征 $F_{tf} \in \mathbb{R}^{H \times W \times c/2}$ 。可表示为：

$F_{cnn}, F_{tf} = Split(Conv_{1 \times 1}(F_i)) \quad (10)$

其中 $Conv_{1 \times 1}$ 指使用1×1卷积核进行的卷积。Split 表示将 $Conv_{1 \times 1}$ 卷积后的特征图分为两部分。根据通道数平均划分。每个Swin Transformer块由多头自注意力（MSA）和自注意力（MLP）层组成。第一阶段的MSA是基于窗口的多头自注意力（W-MSA），第二阶段是移窗基于窗口的多头自注意力（SW-MSA）。MLP层由夹有GeLU激活函数的线性层组成。MSA模块和MLP模块前都有一个层归一化（LN）层，并且每个模块都应用了残差连接。Swin Transformer单阶段过程可表示为：

$F'_{tf} = F_{tf} + MSA(LN(F_{tf})) \quad (11)$

$F''_{tf} = F'_{tf} + MLP(LN(F'_{tf})) \quad (12)$

其中第一阶段使用W-MSA，第二阶段使用SW-MSA。 $F'_{tf}$ 和 $F''_{tf}$ 分别表示每个Swin Transformer模块的中间特征和输出特征。密集块由三个带有ReLU激活函数和密集连接的卷积层组成。每个密集块的过程可表示为：

$F1_{cnn} = ReLU(Conv(F_{cnn})) \quad (13)$

$F2_{cnn} = ReLU(Conv(Cat(F_{cnn}, F1_{cnn}))) \quad (14)$

$F3_{cnn} = ReLU(Conv(Cat(F_{cnn}, F1_{cnn}, F2_{cnn}))) \quad (15)$

$F'_{cnn} = F_{cnn} + F1_{cnn} + F2_{cnn} + F3_{cnn} \quad (16)$

其中 Cat 表示通道维度的级联操作。 $F1_{cnn}, F2_{cnn}, F3_{cnn}$ 表示密集连接的中间特征。 $F'_{cnn}$ 表示密集块的输出特征。最后，密集块和Swin Transformer块的输出特征被级联并经过1×1卷积。连接每个阶段JCT模块的输入特征残差，生成模块的输出特征 $F_o$ ：

$F_o = F_i + Conv_{1 \times 1}(Cat(F'_{cnn} + F''_{tf})) \quad (17)$

4 损失函数

根据问题定义中的讨论，训练过程损失包括融合损失和码率损失，码率损失已由公式(2)给出。融合损失由两部分组成，前景重要区域和背景区域。典型图像融合掩码[34]用于约束融合图像，使其具有红外图像中的显著目标和可见光图像中的背景细节。与典型掩码方法[34]不同，所提出的前景掩码旨在以较低的bpp（每像素比特率）为前景重要区域提供足够的图像质量。因此，本文为前景和背景设计了相同的损失函数，但它们的权重系数不同。背景区域享有较低的权重系数。无论是前景还是背景，都涉及像素强度损失 $\mathcal{L}_{int}$ 和梯度损失 $\mathcal{L}_{grad}$ ：

$\mathcal{L}_{roi}(I_1; I_2; M) = \mathcal{L}_{roi \, int}(I_1; I_2; M) + \mathcal{L}_{roi \, grad}(I_1; I_2; M) \quad (18)$

$\mathcal{L}_{bg}(I_1; I_2; 1 - M) = \mathcal{L}_{bg \, int}(I_1; I_2; 1 - M) + \mathcal{L}_{bg \, grad}(I_1; I_2; 1 - M) \quad (19)$

为了确保融合图像保持可见光图像的颜色，同时融入红外图像的重要目标信息，我们遵循Dif-Fusion[35]并设计了一个带掩码的三通道像素强度损失。公式表达为：

$\mathcal{L}_{int}(I_1; I_2; M) = \frac{1}{HW} \sum_{i=1}^3 \| M \cdot (I^i_f - MAX(I^i_{ir}, I^i_{vi})) \|_1 \quad (20)$

其中 $i \in \{1, 2, 3\}$ 表示可见光图像或融合图像的R、G或B三个通道。H 和 W 分别表示图像的高度和宽度。 $\|\cdot\|_1$ 表示范数操作符。MAX 表示对应像素的最大值。通常，可见光图像具有更多纹理细节。通过视觉发现，观察到红外图像也包含一定的纹理细节。为了从融合图像中全面提取源图像的细节信息，提出梯度损失作为融合损失的一部分。梯度损失计算如下：

$\mathcal{L}_{grad}(I_1; I_2; M) = \frac{1}{HW} \sum_{i=1}^3 \| M \cdot (\nabla I^i_f - MAX(\nabla |I^i_{ir}|, \nabla |I^i_{vi}|)) \|_1 \quad (21)$

其中 $\nabla$ 表示Sobel梯度算子。

4.2 方法解析

1 问题定义

问题背景：
- 红外与可见光图像融合需整合多源异构数据，传统方法在质量和存储效率上受限。
创新点：
- 提出压缩导向融合，不仅关注融合质量，还考虑存储和传输的空间效率。
技术挑战：
- 全局与局部信息：需要平衡红外图像的全局热辐射和可见光的局部纹理。
- 资源分配：通过ROI（感兴趣区域）优化比特分配。
损失函数：
- 总损失：
  - R：码率，基于香农交叉熵计算，衡量压缩效率。
  - Lf：融合损失，分为ROI和背景两部分，α<1 强调ROI

2 总体框架

架构概述：
- 基于变分自编码器（VAE），包括图像编码器 $g_a$ 、超先验编码器 $h_a$ 、超先验解码器 $h_s$ 、图像解码器 $g_s$ 和量化模块。
流程：
1. 编码：红外和可见光图像级联输入 $g_a$ ，生成潜在表示y。y通过 $h_a$ 生成超先验z。两者量化后生成比特流。
2. 解码： $\hat{z}$ 通过 $h_s$ 生成高斯分布参数μ,σ。 $\hat{y}$ 从分布采样，经 $g_s$ 生成融合图像。
模块细节：
- DRB（下采样残差块）：结合LeakyReLU和GDN，增强特征提取。
- JCT（联合CNN与Transformer）：融合局部和全局信息。
- 量化：训练时用均匀噪声近似，降低计算复杂度。
解析：
- VAE框架在图像压缩中成熟（如Ballé的工作），将其用于融合是创新点。JCT模块提升了特征提取能力。

3 联合CNN与Transformer模块（JCT）

设计目标：
- 融合CNN的局部建模和Transformer的全局建模。
结构：
- 输入：特征 $F_i$ 通过1×1卷积分裂为 $F_{cnn}$ 和 $F_{tf}$ 。
- Swin Transformer：两阶段（W-MSA和SW-MSA）处理全局依赖。
- Dense Block：三层密集连接卷积提取局部特征。
- 输出：两部分特征级联并残差连接。
解析：
- Swin Transformer的移窗注意力降低了计算复杂度，密集块增强局部特征复用。并行设计优于顺序组合（如TCCFusion）。

5.实验

5.1实验翻译

本节首先解释了实验设置。然后，通过对比和泛化实验展示了我们方法的融合性能。使用率失真性能证明了所提出算法的优越性。随后，进行了分割评估实验，以说明压缩融合对高层视觉任务的影响。最后，进行了一项消融实验，以验证模型设计的合理性。

1. 配置和实现细节

数据集：在本研究中，使用了MSRS [14]、M3FD [21]、RoadScene [36]和TNO [37]数据集来全面评估我们的算法，旨在通过各种具有挑战性的数据环境验证我们算法的鲁棒性和泛化能力。其中，MSRS是一个广泛使用的基准数据集，涵盖了白天和夜晚的各种光照条件。这增强了模型对数据变化的鲁棒性。对于MSRS数据集，1024对图像用于训练压缩融合网络，而剩余的361对图像则保留用于测试。此外，选择M3FD、RoadScene和TNO数据集来评估模型的泛化性能。这些数据集涵盖了各种自然和城市市场景观、城市交通场景以及与军事相关的夜视场景，反映了模型在特定应用背景下的实用性。M3FD涵盖了300对图像的各种场景。RoadScene是一个包含221对可见光和红外图像的城市场景数据集。TNO数据集包含各种军事相关场景的多光谱夜间图像，包括40对灰度图像。TNO数据集中的可见光图像将被复制到三个通道进行融合。

算法比较：使用了13种其他最先进（SOTA）的算法进行定性和定量比较。包括基于AE的方法，即DenseFuse [9]和CUFD [38]。基于GAN的方法，即FusionGAN [10]、DDcGAN [20]和TarDAL [21]。端到端方法，即SDNet [8]、STDFusionNet [34]、U2Fusion [36]、DIVFusion [26]和PSFusion [39]。基于Transformer的方法，即YDTR [40]、DATFuse [41]和CDDFuse [11]。

评估指标：采用了八个评估统计指标来定量比较融合性能，包括互信息（MI）、视觉信息保真度（VIF）、相关差异总和（SCD）、融合质量（Qabf）、结构相似性（SSIM）、多尺度结构相似性（MS-SSIM）、像素特征互信息（FMIpixel）和色差计算指标Delta-E。MI评估融合图像和原始图像之间的信息共享程度。高互信息值表示融合图像有效地保留了输入图像的信息。VIF旨在与人类视觉系统保持一致，测量融合图像的视觉信息。VIF可以更好地模拟图像质量的感知。SCD测量融合图像和原始图像之间的相关程度。Qabf测量从源图像到融合图像的边缘信息保留，适用于直观评估融合图像的整体质量。SSIM和MS-SSIM用于评估相关损失以及亮度和对比度失真。 FMIpixel评估从源图像传输到融合图像的特征信息量。特别是，我们使用Delta-E来测量融合图像和可见光图像的颜色准确性。Delta-E值表示融合图像和原始可见光图像之间的差异。

实现细节：在训练阶段，我们将图像大小随机裁剪为256 × 256。控制各种损失项的超参数凭经验设置为λ=500, α=0.5。CFNet在PyTorch平台上实现。Adam，批量大小为8，用作训练模型的优化器。学习率设置为0.0001。epoch设置为200。对于Swin Transformer块，图像编解码器中的窗口大小设置为8，超先验编解码器中的窗口大小设置为4。在测试阶段，图像在输入网络之前被填充到128的倍数，然后在融合后裁剪到原始大小。CFNet算法伪代码如算法1所示。训练平台配备了Intel(R) Xeon(R) Silver 4210R CPU、64 GB内存和NVIDIA GeForce GTX 3090 GPU。

2. 对比实验

(1) 定性评估：

为了通过视觉对比展示不同算法的渲染效果，并验证所提出方法的先进性，我们测试了MSRS数据集中的361对红外和可见光图像。MSRS数据集包含白天和夜晚场景。我们从白天和夜晚各选择一对图像，以展示不同算法的融合结果。

如图4所示，在白天场景中，红外图像中的显著目标用红色框标记。DenseFuse、U2Fusion和YDTR未能突出显示“行人”的红外目标信息。虽然DDcGAN和FusionGAN也突出了红外目标，但它们破坏了目标本身的结构特征。绿色框表示桥下的窗口信息，只有PSFusion、DATFuse和我们的方法保留了窗口结构。此外，与原始可见光图像背景信息相比，DenseFuse、FusionGAN、SDNet、UFusion、YDTR和DATFusion更暗，对比度更低，导致视觉体验欠佳。图4，在夜间场景中，图中的红色框也显示了红外显著目标。DenseFuse、FusionGAN、U2Fusion和YDTR未能保留红外图像中的热辐射信息。同时，DDcGAN、STDFusionNet和DIVFusion未能保持行人的原始结构特征。绿色框显示了夜间场景中可见光图像的背景细节。DenseFuse、FusionGAN、SDNet、STDFusionNet、U2Fusion、DIVFusion和YDTR中的文本细节丢失。我们的方法与大多数方法追求的目标相似，保持了红外图像的显著目标，同时保持了可见光纹理细节和整体颜色保证。这得益于两个方面。一方面，CNN和Transformer模块的组合设计结合了CNN保留细节的能力和Transformer捕获整体结构依赖的能力。CNN主要负责提取图像中的细节，如边缘和纹理。这确保了在融合过程中，可见光图像的细节被准确保留。Transformer有助于整合来自不同图像源的上下文信息，促进显著目标和背景之间的更好协调。另一方面，红外图像中融合了光线三个颜色通道的特征。这种设计不仅突出了红外图像的显著目标，还增强了可见光图像的光线和颜色信息。

(2) 定量评估：

我们进一步比较了MSRS数据集。与不同算法的性能进行了比较，并提供了数据表和分布图。如表1所示，

MSRS数据集上八个评估指标的结果。MSRS数据集上客观指标的分布如图5所示的箱线图所示。

值得注意的是，除了Delta-E之外，其他评估指标仅涉及灰度图像评估。所提出的方法在MS-SSIM和Delta-E方面具有最高的性能，并且在MI、VIF、SCD、Qabf、SSIM和FMIpixel方面也优于大多数算法。这表明我们的方法达到了SOTA算法的标准。最高的MS-SSIM表示最小的多尺度结构相关性损失，有效地解决了亮度和对比度失真。同时，我们的方法同时利用多个颜色通道，实现了无可争议的最佳Delta-E。虽然所提出的方法在MI、VIF、SCD、Qabf、SSIM和FMIpixel指标上略微落后于SOTA算法PSFusion和CDDFuse。这是因为所提出的方法引入了定量压缩模块，这在处理图像时不可避免地会导致信息丢失。定量压缩通常用于减小图像数据的大小，有助于存储和传输，但可能会以牺牲某些图像细节和质量为代价。然而，在这种情况下，该模型也优于大多数算法。这表明所提出的算法在保持图像质量方面具有很高的水平。

3. 泛化性能

泛化性能是模型性能评估的关键方面。它指的是评估算法在未见过数据集上的性能，验证其泛化能力。我们在M3FD、RoadScene和TNO数据集上进行了泛化实验。与13种SOTA算法进行了定性和定量比较。

定性比较：如图6所示。DenseFuse的加权平均融合策略产生了暗淡的结果，导致亮度信息不明显。基于GAN的算法FusionGAN和DDcGAN表现出高图像对比度，但牺牲了与原始图像的真实相似性，导致虚假和不自然的融合图像。SDNet基于压缩分解以避免信息丢失，但丢失了可见光图像中的背景亮度信息。STDFusionNet利用显著目标掩码来关注红外目标和可见光背景细节，但忽略了红外图像的梯度。U2Fusion作为一个统一的图像融合框架，在红外和可见光图像融合中表现相对暗淡。虽然DIVFusion具有更高的对比度和更好的视觉效果，但引入了相当大的噪声。TarDAL的结果与STDFusionNet相似，强调目标但忽略背景细节。CUFD的融合结果较为暗淡。YDTR和DATFuse未能突出显示红外图像中的显著目标。PSFusion、CDDFuse和所提出的方法表现出视觉上相似的结果。所提出算法的融合结果不仅具有红外强度和可见光梯度，还包括红外背景梯度和可见光强度，并且性能更加自然。此外，即使引入量化误差，所提出的算法也能达到与SOTA算法相同的结果，展示了其在融合质量方面的潜力。

定量比较：为了客观评估所提出方法的泛化性能，我们在M3FD、RoadScene和TNO数据集上进行了定量实验。我们的CFNet和13种SOTA算法的分布结果如图7-9所示。

为了更直观地显示，我们在表2-4中分别展示了每个数据集指标的平均值。评估结果突出显示，所提出的算法在Qabf、FMIpixel和Delta-E方面实现了更高的平均值。这证实了所提出算法的强大泛化性能。最高的Qabf表明所提出算法的融合图像完全保留了原始图像的边缘信息。最高的FMIpixel说明所提出的算法将最多的像素特征信息传输到融合图像。最低的Delta-E表明所提出算法的融合结果保留了源图像的更多颜色信息，并且更接近人类的多色视觉感知。值得注意的是，在本研究中，我们提出的图像融合算法旨在处理三通道（RGB）图像设计，以优化红外和可见光图像的融合效果。特别是，我们在实验中使用的TNO数据集，其可见光图像最初是单通道的。为了适应我们的三通道融合网络，我们采用了将单通道图像复制到三个通道的方法。虽然此处理步骤简化了实验过程，但也带来了一定的局限性。原始单通道图像缺乏真实的颜色信息。复制通道仅是为了满足输入要求，而不是添加额外信息。这可能会影响算法在处理真实多通道场景时的性能，并限制从真实彩色图像中获取细节的能力。同时，这种处理方法可能会在一定程度上降低模型的泛化能力。因为融合网络经过训练以处理具有丰富颜色级别的图像，所以使用单通道图像的副本可能会导致网络有效地学习从真实多色场景中提取信息的能力。

4. 率失真性能

为了评估我们的方法在最小化空间使用方面的优势，我们遵循图像压缩领域的做法，并使用每像素比特数（bpp）将所提出的方法与SOTA算法进行比较。bpp表示图像每个像素所需的比特数，即占用空间。它通过以下公式计算：

$bpp=8 \times \frac{S}{h\times w}$ (22)

其中，S表示文件或比特流的大小（以字节为单位），h和w分别表示图像的宽度和高度。我们将分别比较所提出的算法和13种算法在MSRS、MFD、RoadScene和TNO数据集上的平均bpp大小。

结果如表5所示。除了TNO数据集外，本文提出的压缩融合算法在每个数据集上的bpp指标都远远领先于其他算法。TNO数据集上的性能是由于本文中的算法将TNO的可见光图像复制到三通道输入网络中。这表明本文中的算法在空间占用方面取得了显著优势。这种优势主要源于将压缩过程嵌入到图像融合算法中，使所提出的算法能够更准确地保留重要信息并减少不必要的冗余。同时，专门设计的网络结构有效地提取和利用图像特征。此外，所提出的算法允许模型通过调整λ来优先考虑图像质量或空间占用，以适应不同的实际需求。图10分别展示了λ值为1、10、50、100、150、250、500和1000时的图像质量和bpp大小。在0.048 bpp和0.378 bpp时，压缩编码引起的块效应非常明显。然而，对于0.980 bpp及以上的图像，肉眼无法察觉到显著变化。因此，我们共同分析了图像视觉质量指标和bpp。

图11描绘了MSRS数据集中算法bpp与各种图像质量指标之间的关系。红色表示所提出模型在不同λ值下的客观指标和比特率。图中显示，在相同的质量指标下，所提出的算法实现了更小的比特率。此外，对于不要求严格客观图像质量的实际应用场景，0.980 bpp模型足以产生令人满意的视觉效果。可以看出，与现有的图像融合算法相比，所提出的方法以较低的bpp值实现了与其他方法相当的图像质量。这意味着我们的方法可以在相同的空间资源内存储更多的图像数据，或者使用相同的传输带宽传输更高质量的图像。因此，该方法在图像空间占用方面表现出色，特别是在对空间资源敏感的场景中，具有显著的优势和应用潜力。

5. 分割评估

为了评估该算法在实际应用中的效果，我们探讨了图像压缩和融合在图像分割任务中的性能。此外，压缩编码方法减少了人类视觉无法感知的冗余信息。因此，为了确定这种冗余信息的丢失是否会影响高级视觉任务，我们使用语义分割来评估融合图像的分割性能。SegFormer [42]用于评估各种算法的语义分割性能。分割性能通过每个类别像素的交并比（IoU）、所有类别的平均IoU（mIoU）和平均准确率（mACC）等指标进行评估。定量分割结果如表6所示。我们的融合结果在背景、人、自行车、曲线和凸起上实现了最高的IoU，同时获得了次优的mIoU。这表明我们的融合结果使分割模型能够更准确地捕获图像中不同类别的边界和区域，从而提高分割性能。此外，所提出的算法实现了最高的mACC，表明分割算法对我们的融合结果表现出更高的像素分类准确率。压缩融合实现如此分割性能的能力可归因于以下因素。

一方面，分割前景的引入使网络能够更多地关注图像中的关键信息，即完成特定视觉任务的基本前景。覆盖对象位置指数信息的的前景有助于网络优化其资源分配并集中在高信息值区域，从而提高整体处理效率。另一方面，联合CNN和Transformer作为融合网络的主干，使网络能够在保留重要局部细节的同时有效地理解和利用整个场景的上下文信息。这种结构不仅增强了对复杂场景的解释，而且提高了其细节的敏感性和准确性。更高的语义分割准确率对现实世界具有深远的影响。它可以提高自动驾驶系统的安全性和可靠性。通过准确识别道路、行人、车辆等目标，车辆可以更有效地规划和决策，从而降低交通事故的风险。

不同算法的分割结果如图12所示。在第一种情况下，分割模型仅识别所提出算法和DATFuse融合结果中的路边曲线。除了FusionGAN、DDcGAN、SDNet和U2Fusion之外，其他算法都可以识别图像中间的停车位。观察这些算法的融合结果，它们的融合结果较暗，这对分割性能产生了负面影响。所有算法的融合结果都未能成功识别人的左脚。在第二种情况下，只有TarDAL和我们的算法提供了相对完整的自行车信息。同时，FusionGAN、STDFusionNet、DIVFusion、PSFusion、YDTR和DATFusion在完全识别行人信息方面存在不足。此外，只有DDcGAN和DIVFusion识别出曲线。这归因于它们的算法在黑暗夜间环境中的增强效果。如图4所示，DDcGAN和DIVFusion在黑暗光照环境下可以具有更好的视觉效果，从而增强曲线以更好地识别分割模型。总之，定量和视觉评估验证了压缩融合方法对视觉任务没有不利影响，并且在高层视觉任务中具有显著的应用潜力。

6. 消融实验

1.与仅Transformer/仅CNN模型的比较

为了证明所提出的联合CNN和Transformer模块（JCT）的有效性，我们仅在CNN模块和仅在Transformer模块上进行了消融实验。仅CNN表示从JCT模块中移除了Swin Transformer分支，输入和输出通道数量加倍。仅TRAFO表示从JCT模块中移除了CNN分支，输入和输出通道数量加倍。

结果如表7所示。无论是在特征提取网络的浅层还是深层，JCT都表现出捕获特征的局部细节和全局交互关系的能力。通过利用Transformer和CNN的优势，结果表明我们的方法优于仅CNN模型和仅TRAFO模型。

2. 超先验分支

为了验证变分自编码器的有效性，我们在超先验分支上进行了消融实验。如表7所示，w/o Hyper表示移除了超先验分支的融合结果。结果表明，移除超先验分支后，所有指标均显著下降。这种下降归因于以下事实：在没有超先验分支的情况下，潜在特征y是逐点编码的，而不是从特定分布范围中采样的，从而导致缺乏一定的泛化性能。为了直观地说明超先验的作用，我们可视化了潜在特征中熵最高的通道。

如图13所示，第一行是融合图像、潜在特征表示y和超先验预测的均值μ。第二行是预测误差（y−μ）、超先验预测的尺度σ和归一化潜在特征（y−μ）/σ。潜在特征y的可视化清楚地显示了边缘和纹理区域周围的可见结构，表明边缘中存在依赖结构。归一化后，潜在变量接近独立同分布，没有明显的依赖结构。这强调了超先验分支有助于减少结构冗余。

3. ROI/BG分析

为了证明所提出的ROI区域损失的有效性，我们进行了ROI/BG分析实验。如图14所示，第一列是本文默认模型的融合结果、将背景区域权重设置为远小于ROI区域权重的融合结果以及实际前景ROI区域二值化图。第二列是与放大区域相对应的绿色框。前两种情况下的像素深度分别为3.904 bpp和0.103 bpp。

从图14(b)可以明显看出，前景目标区域中人的轮廓清晰可见。对于背景中的植物，编码留下的条纹块效应非常明显。这说明所提出的基于ROI的损失函数为前景区域分配了更多比特，有效地保留了前景信息。对于不太重要的背景区域，可以根据特定需求降低背景区域的图像质量，以提高存储和传输效率。特别是在图像传输需要高实时性且对前景目标有特定要求的场景中，本研究的结果具有实际意义。然而，ROI真实值在实际应用中并不存在。这也是ROI损失未能达到预期效果的主要原因。未来，我们还将致力于隐式ROI比率分配，以实现更好的图像质量和压缩性能。

5.2 实验解析

实验设置和数据集选择：
- 研究者使用了多个数据集（MSRS、M3FD、RoadScene、TNO）来全面评估算法的性能。这些数据集涵盖了不同的场景和挑战（如不同光照条件、城市环境、军事场景），这有助于验证算法的鲁棒性和泛化能力。
- MSRS数据集用于训练和测试，而其他数据集用于评估泛化能力。这种设置有助于区分模型在训练数据上的表现和在未见过数据上的表现。
- TNO数据集的可见光图像被复制到三个通道，表明该算法适用于处理不同通道数量的输入。
算法比较：
- 研究者将他们的算法与13种最先进的算法进行了比较，这些算法涵盖了不同的架构（AE、GAN、端到端、Transformer）。这种广泛的比较有助于全面评估他们算法的性能。
- 比较的算法包括，基于AutoEncoder的（AE），基于生成对抗网络（GAN），端到端，和基于Transformer的算法。这表明该研究者在对比算法选择上，覆盖了图像融合领域的主流算法。
评估指标：
- 研究者使用了多个评估指标（MI、VIF、SCD、Qabf、SSIM、MS-SSIM、FMIpixel、Delta-E）来定量评估融合性能。这些指标涵盖了不同的方面，如信息保留、视觉质量、结构相似性和颜色准确性。
- 使用Delta-E评估颜色准确性，表明该研究考虑了融合图像的颜色保真度。
- FMIpixel评估像素特征互信息，说明研究者关注特征层面的信息保留。
实现细节：
- 研究者提供了详细的实现细节，包括训练参数（裁剪大小、超参数、优化器、学习率、epoch）、网络架构（Swin Transformer窗口大小）和硬件配置。这些细节有助于其他研究者重现他们的结果。
- 算法使用随机裁剪，batchsize, Adam优化器，和特定的学习率。这些都是深度学习训练的常见做法。
- 使用Swin Transformer，说明该研究使用目前流行的Transformer技术。
- GPU的型号，CPU的型号，内存的大小，这些信息有助于其他研究者复现该实验。
消融实验和率失真性能：
- 提到进行消融实验，说明研究者对模型设计的每个部分进行了验证，以确保每个部分都对整体性能有贡献。
- 率失真性能的评估说明该研究考虑了压缩效率和图像质量之间的平衡，这在实际应用中非常重要。

定性评估（视觉对比）：
- 研究者通过展示白天和夜晚场景的融合结果，并用红色和绿色框标记显著目标和细节，来直观地比较不同算法的性能。这种方法有助于理解算法在不同场景下的视觉效果。
- 研究者分析了各种算法的优缺点，例如，某些算法无法突出显示红外目标，某些算法破坏了目标结构，某些算法导致图像过暗或对比度过低，而某些算法则丢失了细节。
- 研究者强调了他们的算法在保持红外显著目标、可见光纹理细节和整体颜色保证方面的优势，这得益于CNN和Transformer模块的组合，以及红外图像中颜色通道的融合。
- 对CNN和Transformer结合的解析很准确，CNN擅长细节提取，Transformer擅长全局上下文。
定量评估（指标比较）：
- 研究者使用多个评估指标（MS-SSIM、Delta-E、MI、VIF、SCD、Qabf、SSIM、FMIpixel）来定量比较不同算法的性能。
- 研究者强调了他们的算法在MS-SSIM和Delta-E方面具有最高的性能，并且在其他指标方面也优于大多数算法。
- 研究者解释了他们的算法在某些指标上略微落后于SOTA算法的原因，即定量压缩模块导致的信息丢失。
- 研究者强调了他们的算法在保持图像质量方面的优势，即使引入了量化误差。
泛化性能评估：
- 研究者在M3FD、RoadScene和TNO数据集上进行了泛化实验，以评估他们的算法在未见过数据集上的性能。
- 研究者进行了定性和定量比较，并分析了各种算法的优缺点。
- 研究者强调了他们的算法在Qabf、FMIpixel和Delta-E方面实现了更高的平均值，这表明他们的算法具有强大的泛化性能。
- 研究者讨论了TNO数据集的单通道可见光图像如何影响他们的算法的性能，以及如何限制他们的算法在真实多通道场景中的能力。
- 讨论TNO数据集的单通道问题，并解释复制单通道对3通道的影响，是非常专业的分析。
总体分析：
- 研究者进行了全面的实验，包括定性和定量评估，以及泛化性能评估。
- 研究者对他们的算法和比较算法的优缺点进行了详细的分析。
- 研究者讨论了他们的算法的局限性，例如，定量压缩导致的信息丢失以及单通道图像处理的挑战。
- 研究者对深度学习算法的架构，以及评估指标的含义，都有深刻的理解。
- 对实验结果的解析，结合了算法的特性，以及评估指标的意义。

率失真性能（bpp分析）：
- 研究者使用bpp作为评估空间使用效率的指标，并与13种SOTA算法进行比较。
- 研究者强调了他们的算法在大多数数据集上实现了显著更低的bpp，这表明他们的算法在空间占用方面具有优势。
- 研究者解释了TNO数据集上的性能差异，并指出这是由于单通道图像复制到三通道引起的。
- 研究者讨论了λ参数如何影响图像质量和bpp，并指出在实际应用中，可以在图像质量和空间占用之间进行权衡。
- 研究者通过图10和图11展示了bpp与图像质量指标之间的关系，并指出他们的算法在相同的质量指标下实现了更小的比特率。
分割评估（语义分割）：
- 研究者使用语义分割任务来评估融合图像的质量，并使用SegFormer模型和IoU、mIoU和mACC指标。
- 研究者强调了他们的融合结果在多个类别上实现了最高的IoU和最高的mACC，这表明他们的融合结果提高了分割性能。
- 研究者讨论了压缩融合如何提高分割性能，并指出分割前景和联合CNN-Transformer架构的作用。
- 研究者通过图12展示了不同算法的分割结果，并分析了它们的优缺点。
- 将融合结果应用到下游任务，例如语义分割，这可以验证该融合结果的有效性。
消融实验：
- 联合CNN-Transformer模块（JCT）：
  - 研究者进行了消融实验，以证明JCT的有效性，并比较了仅CNN和仅Transformer模型。
  - 研究者强调了JCT能够捕获局部细节和全局交互关系，并指出他们的算法优于仅CNN和仅Transformer模型。
- 超先验分支：
  - 研究者进行了消融实验，以验证变分自编码器的有效性，并移除了超先验分支。
  - 研究者强调了移除超先验分支后所有指标均显著下降，并解释了这是由于潜在特征的编码方式不同。
  - 研究者通过图13可视化了超先验的作用，并指出它有助于减少结构冗余。
- ROI/BG分析：
  - 研究者进行了ROI/BG分析实验，以证明ROI区域损失的有效性。
  - 研究者强调了ROI区域损失能够为前景区域分配更多比特，并有效地保留前景信息。
  - 研究者讨论了ROI真实值在实际应用中不存在的局限性，并指出他们未来的工作将致力于隐式ROI比率分配。
总体分析：
- 研究者进行了全面的实验，包括率失真性能评估、分割评估和消融实验。
- 研究者对他们的算法和比较算法的优缺点进行了详细的分析。
- 研究者讨论了他们的算法的局限性，例如，TNO数据集上的性能差异和ROI真实值不存在的问题。
- 研究者对深度学习算法的架构、损失函数和评估指标都有深刻的理解。
- 对实验结果的解析，结合了算法的特性，以及评估指标的意义。

6.结论

6.1 结论翻译

在本文中，我们提出了一种基于联合CNN和Transformer以及感兴趣区域的红外和可见光图像压缩融合网络。首先，本文研究了压缩任务和融合任务的联合优化，最小化冗余信息。为实际存储和传输任务带来更好的压缩率。其次，开发了联合CNN和Transformer模块作为网络的主要架构。同时，网络聚合了局部位置信息和全局依赖关系，使得网络能够更好地实现压缩和融合任务的联合优化。此外，我们基于前景目标掩码在感兴趣区域构建了多通道损失，这不仅实现了多通道图像的直接融合，而且带来了更好的压缩比。广泛的比较测试证明了所提出的算法在融合质量方面的高质量性能。特别是，率失真性能实验展示了所提出的算法在数据存储和传输方面的优势。这项工作专注于解决压缩和融合任务的联合优化难题。这两个任务本身都是为了提高图像处理系统在处理、存储和传输图像数据时的效率和效果，这直接影响了图像数据在高层视觉任务中的应用性能。尽管这项研究在压缩和融合的联合优化方面取得了一定的进展，但在高级视觉任务的需求方面存在疏忽。在未来的工作中，我们将考虑在特征表示层融合时引入语义信息，确保融合过程不仅保持图像的视觉质量，而且增强其语义丰富性。开发新的网络架构，特别是那些能够有效处理多任务学习的结构，以实现压缩和融合的更好平衡。

6.2 结论解析

核心贡献：
- 联合优化压缩与融合： 该研究的核心在于解决红外和可见光图像压缩与融合的联合优化问题。传统方法通常独立处理这两个任务，导致效率低下。该研究通过将压缩过程嵌入到融合网络中，实现了更高效的数据处理。
- 联合CNN和Transformer架构： 研究者设计了一种结合CNN和Transformer优势的网络架构。CNN擅长提取局部细节，Transformer擅长捕获全局依赖关系，这种结合提高了网络的融合性能。
- 基于ROI的多通道损失： 通过引入基于感兴趣区域（ROI）的多通道损失，网络能够更有效地保留重要区域的信息，并提高压缩比。
技术细节与优势：
- 降低冗余信息： 联合优化策略有效降低了冗余信息，提高了压缩率，这在实际存储和传输场景中具有重要意义。
- 平衡局部与全局信息： 联合CNN和Transformer架构能够同时捕捉图像的局部细节和全局依赖关系，这对于高质量的图像融合至关重要。
- 提升融合质量与压缩比： 基于ROI的多通道损失函数，有效的提高了融合图像质量，同时提高了压缩比。
- 率失真性能： 实验结果表明，该算法在数据存储和传输方面具有优势，即在相同存储空间或传输带宽下，能够存储或传输更高质量的图像。
局限性与未来工作：
- 高级视觉任务的疏忽： 研究者承认，当前工作在高级视觉任务的需求方面存在疏忽。虽然融合质量和压缩比得到了优化，但如何更好地服务于语义分割等高级任务仍需进一步研究。
- 语义信息融入： 未来的工作将考虑在特征表示层融合时引入语义信息，以增强融合图像的语义丰富性。这将有助于提高融合图像在高级视觉任务中的应用性能。
- 多任务学习架构： 研究者计划探索新的网络架构，特别是能够有效处理多任务学习的结构，以实现压缩和融合的更好平衡。
- 该研究对未来工作的规划，例如加入语义信息，探索多任务学习，都是非常好的方向。
总体分析：
- 该研究针对红外和可见光图像压缩融合问题，提出了一种有效的解决方案，具有较高的创新性和实用价值。
- 研究者对深度学习算法的架构设计和损失函数优化具有深入的理解。
- 研究者能够清晰地认识到当前工作的局限性，并提出了具有前瞻性的未来工作方向。
- 对联合优化压缩和融合任务的理解，以及对CNN和Transformer结合的理解，都非常专业。