红外与可见光融合学习（十）2025TPAMI综述：Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption

红外-可见光图像融合（IVIF）是计算机视觉领域的一项基本且关键任务。其目标是将红外和可见光谱的独特特性整合成一个整体表示。自2018年以来，越来越多的多样化IVIF方法进入了深度学习时代，涵盖了广泛的网络结构和损失函数，以提升视觉增强效果。随着研究的深入和实际需求的增长，一些复杂问题，如数据兼容性、感知精度和效率，无法被忽视。遗憾的是，缺乏最近的综述文章来全面介绍和组织这一不断扩展的知识领域。鉴于当前的快速发展，本文旨在填补这一空白，提供一份全面的综述，涵盖广泛的方面。首先，我们引入了一个多维框架，以阐明当前流行的基于学习的IVIF方法，涵盖从基本视觉增强策略到数据兼容性、任务适应性以及进一步扩展的主题。随后，我们深入分析这些新方法，提供详细的查找表以澄清其核心思想。最后，我们从定量和定性角度总结了性能比较，涵盖配准、融合和后续高级任务。除了深入探讨这些基于学习的融合方法的技术细节外，我们还探索了潜在的未来方向和需要社区进一步探索的开放问题。如需更多信息和详细的数据汇编，请参阅我们的 GitHub 仓库：https://github.com/RollingPlain/IVIF ZOO。

二. 介绍

2.1 介绍翻译

光谱由多个光谱项组成，可以简洁地定义为光在不同频率或波长上的表示。广义上，光谱涵盖了整个电磁波范围，从无线电波到伽马射线。然而，在日常生活中，我们最为熟悉的是可见光谱，它包括人眼可感知的颜色，如红、橙、黄、绿、蓝、靛、紫。但可见光谱仅占整个光谱的极小部分。在可见光之外，还存在许多其他光谱类型，包括紫外线、红外线、微波和X射线，每种光谱都有其独特的特性和应用[1]，[2]。图1展示了对应不同波长的图像，从10⁻¹²米（伽马射线）到10³米（广播频段）。随着人工智能的快速发展，智能系统在现实世界、复杂甚至极端场景下有效运行的感知需求日益增加。然而，单一光谱类型的固有局限性往往无法全面、可靠、精确地描述这些场景。因此，多光谱图像融合技术应运而生，旨在合成和优化来自不同传感器捕获同一环境的多样化图像数据[3]，[4]。其中，红外和可见光图像作为下一代智能系统的主要数据源，在实现高可靠性感知任务中发挥着不可替代的作用。红外光谱位于可见光谱红色端的外部，具有比红光更长的波长。红外辐射的一个显著特征是其能被物体吸收并重新发射，使其成为温度或热量的宝贵指标。因此，红外传感器常用于夜视、热成像和某些特殊医疗应用[6]。虽然两种光谱在不利条件下都有局限性，但多光谱图像在环境适应性（如烟雾、障碍物、低光照）和独特视觉特征（如分辨率、对比度、纹理细节）方面提供了显著的互补性。为了充分利用红外和可见光谱的互补性，整合两者以发挥其综合优势至关重要。一种直接方法是将红外和可见光图像直接输入神经网络，进行决策级融合以完成各种任务。然而，这种方法忽略了生成融合图像的优势，融合图像可以增强信息表示，降低噪声，同时满足观察需求，并更好地支持广泛的实际应用，如遥感、军事监控和自动驾驶等[7]。自2018年以来，基于学习的红外与可见光图像融合（IVIF）方法因深度学习技术的强大非线性拟合能力而取得了显著发展。与传统方法相比，这些基于学习的方法在视觉质量、鲁棒性和计算效率方面表现出色，因此吸引了越来越多的关注。这些方法在各种基准测试中往往达到最先进性能，从早期的仅用于视觉增强的图像融合方法到近期的数据兼容性/任务适应性方法。本文全面概述了通过深度学习融合红外和可见光图像的最新进展，特别强调了面向实际应用的提案。尽管文献中存在关于红外与可见光图像融合的综述[8]，[9]，但我们的工作独树一帜。我们的重点在于多维度洞察（数据、融合和任务）的IVIF技术，与大多数之前的工作不同，后者主要旨在综述传统或基于学习的IVIF方法。我们的综述采用了更通用的视角，审视设计适用于实际应用的深度网络所需的各种关键因素。重要的是，我们强调了初步数据兼容性和后续任务的关键作用，这两者在将IVIF应用于实际场景时至关重要。因此，本综述是首次以多维度方式提供对近期进展的洞察性和系统性分析的努力。本工作旨在激发社区内的新研究，充当进一步探索和发展的催化剂。本研究的主要贡献有以下四点：

据我们所知，本综述论文在以多维度视角（数据、融合和任务）统一理解和组织基于学习的红外与可见光图像融合方法方面是前所未有的。我们回顾了180多种基于学习的方法。论文整体结构概览如图2所示。
我们深入讨论了每个视角，涉及最近使用的架构和损失函数。我们还总结了表I，讨论代表性方法的核心思想，从而为后续研究该领域的学者提供了极大便利。
为阐明面向应用的红外与可见光图像融合方法，我们以层次化和结构化的方式系统概述了近期技术和数据集的进展。值得注意的是，我们首次比较了初步配准和后续任务（如目标检测和语义分割）的融合性能。
我们讨论了挑战和开放问题，识别新兴趋势和潜在方向，为社区提供洞察性指导。

A. 范围
图像融合是一项基础图像增强技术，涵盖多个分支，包括但不限于红外与可见光图像融合。在单一篇幅内详细回顾这些相关技术是不现实的。本工作中，我们主要聚焦于基于学习的红外与可见光图像融合，精选介绍相关领域的代表性方法。本文主要关注过去六年取得的重要进展，特别关注顶级会议和期刊发表的工作。除了阐明基于学习的红外与可见光图像融合方法的技术细节外，本综述还概述了分类法、常用数据集、潜在挑战和研究方向。

B. 组织
本文组织如下。第II节简要介绍了红外与可见光图像融合任务，重点在于其应用。第III节提出了一个新的分类法，将现有方法分为三个维度。此外，该节深入探讨了网络架构和相关损失函数的基本组成部分。这一全面概述有助于初学者掌握基础知识，并帮助资深研究者更结构化、更深刻地理解该领域。第IV节列举了该领域广泛接受的基准和评估指标。第V节展示了我们方法的全面评估，详细介绍了配准、融合和其他后续下游任务的定性和定量结果。第VI节指出了未来研究的潜在方向。文章在第VII节以总结结束。

2.2 介绍解析

1. 多光谱图像融合的背景与重要性

光谱定义：
- 光谱表示光在不同波长或频率上的分布，涵盖电磁波全范围（从无线电波到伽马射线）。
- 可见光谱：仅占很小部分（约400-700nm），包括人眼可感知的颜色（红、橙、黄、绿、蓝、靛、紫）。
- 其他光谱：
  - 红外（700nm-1mm）：捕捉热辐射，适合夜视、热成像。
  - 紫外（10-400nm）：用于材料分析、医疗。
  - 微波、X射线：分别用于通信、成像等。
IVIF 的核心目标：
- 整合红外（显著性强，热目标突出）和可见光（纹理丰富，细节清晰）的特性，生成综合表示。
- 应用：
  - 自动驾驶：夜间行人检测。
  - 遥感：地貌分析。
  - 军事监控：全天候目标跟踪。
  - 医疗：热成像诊断。
  - 必要性：单一光谱（如可见光在夜间失效，红外缺乏纹理）无法满足复杂场景需求，IVIF 是解决这一局限的关键技术。

2. 多光谱融合的挑战与 IVIF 的独特地位

单一光谱的局限性：
- 红外：分辨率低，缺乏颜色和纹理，易受噪声影响。
- 可见光：受光照、烟雾、遮挡影响，夜间效果差。
- 挑战：单一光谱无法提供全面、可靠的场景描述，尤其在极端条件（如低光照、雾天）。
多光谱融合的意义：
- 通过整合不同传感器的数据，生成更鲁棒、丰富的信息表示。
- 红外-可见光融合（IVIF）：
  - 互补性：
    - 环境适应性：红外在烟雾、低光照下表现优异；可见光在白天提供高分辨率。
    - 视觉特征：红外突出目标（热源），可见光提供纹理、对比度。
  - 关键性：IVIF 是多光谱融合的核心分支，因其数据易获取（红外相机、可见光相机普及）且应用广泛。

3. IVIF 的技术演进与深度学习

传统方法：
- 基于多尺度分解（如小波变换）、稀疏表示或加权平均。
- 局限：依赖手工特征，泛化性差，视觉质量有限。
深度学习时代（2018年以后）：
- 驱动因素：深度学习的非线性拟合能力，显著提升融合质量。
- 代表性进展：
  - 早期（视觉增强）：如 DenseFuse（2018），基于编码-解码器，提升目标和纹理保留。
  - 近期（数据兼容性/任务适应性）：如 PIAFusion（光照感知）、NestFuse（多尺度），支持配准、检测、分割等。
- 优势：
  - 视觉质量：融合图像更自然，细节更丰富。
  - 鲁棒性：适应复杂场景（如夜间、雾天）。
  - 效率：端到端训练，减少手动调参。

4. IVIF 的技术细节

网络架构：
- CNN：如 U-Net、ResNet，适合特征提取和融合。
- GAN：生成自然图像，优化视觉质量。
- Transformer：捕捉全局依赖，适合跨模态交互。
- MoE：动态选择融合策略，提升自适应性。
损失函数：
- 像素级： $l_1$ 、 $l_2$ 、SSIM，优化像素一致性。
- 感知级：VGG 特征损失，增强语义自然性。
- 对抗级：GAN 损失，提升视觉真实性。
- 任务级：检测或分割损失，优化下游性能。
数据兼容性：
- 配准：端到端深度配准（如 FlowNet）或传统特征点匹配。
- 分辨率统一：插值、超分辨率网络（如 SRGAN）。
任务适应性：
- 检测：融合图像提升夜间 mAP。
- 分割：融合图像提高 mIoU。
- 夜视增强：生成适合人眼观察的图像。

三. 任务

3.1 任务翻译

对于由不同传感器捕获的一对红外与可见光图像，红外与可见光图像融合（IVIF）的目标是生成一个比任何单一图像包含更互补、更全面的信息的单一图像。可见光图像是传感器利用从各种场景和物体反射的光线生成的，有效地呈现了环境的详细纹理信息。然而，这些图像很容易受到环境光照、亮度以及恶劣天气条件等因素的影响。相比之下，红外传感器通过探测热辐射来成像，这突出了物体的整体轮廓，但可能导致特征模糊、对比度低以及纹理信息减少。为了利用这两种技术的优势，可以结合红外与可见光成像来提取全面的信息，从而增强场景理解。这种协同作用使得现实中的实际应用（例如智能系统）即使在动态和恶劣条件为特征的环境中也能保持鲁棒的视觉感知。

当将 IVIF 应用于实际应用时，应仔细考虑两个关键因素。(i) 大多数现有方法需要像素级配准的红外与可见光图像对进行融合。然而，由于红外与可见光传感器在视点、像素分布和分辨率方面存在显著差异，获取精确配准的数据极具挑战性。(ii) 部分方法侧重于寻求视觉增强，而忽略了提升后续高级视觉任务（例如，目标检测、深度估计和语义分割）的性能。因此，生成的融合图像难以直接应用于具有感知需求的智能系统中。

图 3 给出了用于实际应用的 IVIF 完整流程。总之，IVIF 的总体目标是生成一个既能实现视觉增强，又能提升环境感知性能的融合图像。

3.2 任务解析

1.核心目标与原理 (Complementary Information):

基本概念: IVIF 属于多模态图像融合领域，其根本出发点是不同类型的传感器捕捉现实世界信息的互补性。
可见光图像 (Visible): 依赖反射光成像，与人眼感知类似。其优势在于高分辨率、丰富的纹理细节和色彩信息，能很好地表现场景的结构和细节。但其致命弱点是严重依赖光照条件，在夜晚、强光/阴影、雾霾、烟尘等恶劣环境下性能急剧下降。
红外图像 (Infrared, 通常指热红外): 依赖物体自身发射的热辐射成像。其优势在于全天候工作能力（不受光照影响）、穿透烟雾能力以及突出热目标（如人、车辆发动机）的能力。其劣势在于分辨率通常较低、缺乏纹理细节和色彩信息、对比度可能不高，有时难以区分材质相同但温度相近的不同物体。
融合目标: IVIF 的核心目标就是设计算法，将可见光图像的纹理细节与红外图像的热目标信息/轮廓信息有效结合，生成一张信息更丰富、对环境描述更全面的图像，克服单一传感器的局限性。

2.应用价值 (Synergy & Robust Perception):

提升场景理解: 融合图像提供了更完整的信息，有助于后续的分析和决策。
增强鲁棒性: 这是 IVIF 最重要的价值之一。在例如自动驾驶、智能监控、军事侦察、搜索救援等应用中，系统需要在各种光照和天气条件下（白天、黑夜、雨雪、雾霾）都能稳定工作。IVIF 通过结合两种模态的优势，显著提高了视觉系统在这些动态和恶劣条件下的感知可靠性。例如，夜间驾驶时，融合图像可以同时显示道路的纹理（来自可见光，如有微光）和行人/动物的热信号（来自红外）。

3.关键挑战 (Challenges in Practical Applications):

(i) 图像配准 (Registration): 这是 IVIF 领域一个长期存在的经典难题。
- 原因: 红外和可见光传感器通常物理位置不同（导致视差）、内部参数不同（焦距、光学畸变）、成像原理不同（导致几何和辐射度量差异）、分辨率可能不同。这些因素导致原始获取的图像在空间上是不对齐的。
- 难点: 大多数传统的或基于学习的融合算法都假设输入图像是像素级精确对齐的。然而，实现这种精确对齐非常困难，配准误差会严重影响融合效果，甚至引入错误信息（如重影、模糊）。开发对配准误差不敏感或能处理未配准图像的融合方法是一个重要的研究方向。
(ii) 融合目标与下游任务的协同 (Fusion for High-Level Tasks): 这是近年来 IVIF 研究的一个重要趋势。
- 传统问题: 很多早期的 IVIF 方法主要追求视觉效果上的增强，即生成的图像看起来更清晰、对比度更高、信息更丰富（对人眼友好）。评价指标也多集中在信息熵、空间频率、标准差等图像质量指标上。
- 实际需求: 在智能系统中（如自动驾驶车辆、检测机器人），融合图像最终是服务于下游的高级视觉任务，如目标检测、语义分割、深度估计等。
- 矛盾: 仅仅追求视觉效果的融合方法，其生成的图像不一定有利于这些下游任务。例如，某些融合方法可能为了视觉效果而平滑掉一些对目标检测器很重要的边缘信息，或者引入一些伪影干扰分割算法。
- 研究趋势: 因此，越来越多的研究开始关注任务驱动的融合，即融合算法的设计直接以提升下游任务（如目标检测精度、分割 IoU）为目标，或者将融合模块与下游任务模块进行端到端的联合训练。这种方法更能满足实际应用的需求。

4.总体目标 (Total Goal):

理想的 IVIF 技术应该能够实现双重目标：既要生成视觉上自然、清晰、信息丰富的图像（Visual Enhancement），也要使其有利于后续的智能分析任务，提升系统的整体环境感知性能/准确率 (Boost Environment Perception Rate/Performance)。这要求融合算法在信息提取、整合和表示方面做得更好，避免信息损失和伪影引入。

四. 文献综述

4.1 文献综述翻译

A. 以视觉增强为目的的融合

基于自编码器 (AE) 的方法: 基于自编码器 (AE) 的方法 [10]–[18] 包含两个步骤。首先，使用可见光和/或红外图像预训练一个自编码器。其次，使用训练好的编码器进行特征提取，并使用训练好的解码器进行图像重建。编码器和解码器之间的融合通常根据手动设计的融合规则执行，或者通过使用可见光-红外图像对进行第二阶段训练来学习，如图 5 所示。现有的 AE 方法可以分为两类：i) 融合规则和数据整合方面的增强，旨在改进多模态特征合成。ii) 网络架构方面的创新，包括引入新层和修改连接方式。
- 融合规则: DenseFuse [19] 作为融合策略方法的先驱，引入了两种核心方法：一种用于组合编码器生成的特征图的加法策略，以及一种使用 softmax 选择显著特征的基于 l1 范数的策略。这两种策略产生了优于传统方法的结果。为了进一步增强特征整合并强调关键信息，Li 等人 [20] 创新地将嵌套连接网络与空间/通道注意力模型相结合用于红外-可见光图像融合。它通过注意力模型突出了空间和通道的重要性，增强了多尺度深度特征融合，并在客观和主观评估中超越了其他方法。
- 网络架构: RFN-Nest [21] 以其新颖的网络架构脱颖而出，引入了一个残差融合网络 (RFN)，旨在增强基于深度特征的图像融合，特别关注网络设计的复杂性以保留复杂细节。针对红外-可见光图像融合的复杂性，Liu 等人 [22] 通过其创新的网络结构推动了该领域的发展，该结构结合了多尺度特征学习和边缘引导的注意力机制，优化了架构以增强细节清晰度同时减少噪声。在网络创新领域，Zhao 等人 [23] 采用具有特殊设计的自编码器来有效分离和整合背景与细节特征，强调了通过策略性网络修改实现彻底的特征融合。扩展对网络驱动解决方案的关注，Zhao 等人 [24] 利用算法展开将传统优化重新概念化为一个结构化的网络过程，该过程经过精心设计以分离和融合不同频率信息，突显了通过策略性架构进步改善融合结果。
基于 CNN 的方法: 在基于 CNN 的图像融合算法 [25]–[35] 中，过程通常涉及三个主要步骤：特征提取、融合和图像重建，如图 5 所示。此类算法的关键优势在于它们能够从数据中自主学习复杂和高级的特征。在基于 CNN 的图像融合方法领域，三种创新方法脱颖而出：i) 受优化启发的 CNN 方法利用迭代整合和可学习模块来提高融合效率。ii) 修改损失函数对 IVIF 任务中的无监督学习结果起着关键性的定义作用。iii) 架构进步侧重于优化网络设计，其中 NAS 作为一种用于结构优化的专门方法。
- 受优化启发: 基于模态特征的自然先验，提出了受优化模型启发的学习模型用于红外与可见光图像融合 [24], [36], [37]。这些方法通常将网络引入迭代过程，受优化目标引导，或用可学习模块替换数值运算。Li 等人 [36] 引入了 LRRNet，将低秩表示 (Low-Rank Representation) 应用于网络设计，从而增强了可解释性。Liu 等人 [37] 提出了一种基于双层优化的融合方法，专注于图像分解。Zhao 等人 [24] 采用算法展开进行图像融合，针对跨模态的低频/高频信息。
- 损失函数: 损失函数是关键的目标，对于 IVIF 这种无监督图像处理任务，其设置至关重要。PIAFusion [38] 采用了一种创新的光照感知损失，由一个评估场景光照的子网络引导，显著改善了各种光照条件下的图像融合。扩展上下文感知处理，STDFusionNet [39] 使用由显著目标掩码增强的损失函数，优先将关键的红外特征与可见光纹理整合，极大地改善了特征整合和图像清晰度。
- 结构: 早期关注网络结构的工作集中于利用和微调如残差网络 [28], [40]–[43]、密集网络 [41], [44]–[50] 和 U-Net 等架构，此处不再详述。这里介绍的专注于设计网络结构的方法，大多融入了新颖的技术方法来升级融合算法。IGNet [51] 创新地结合了 CNN 和图神经网络 (GNN) 进行红外-可见光图像融合。它首先进行基于 CNN 的多尺度特征提取，然后采用图交互模块将这些特征转换为图结构，以实现有效的跨模态融合。此外，其在 GCNs 中的领导节点策略增强了信息传播，从而更有效地保留了纹理细节。Yue 等人引入了 Dif-Fusion [52]，利用扩散模型构建多通道分布，能够直接生成具有高色彩保真度的彩色融合图像。特别地，神经架构搜索 (NAS) 近年来在图像融合领域取得了广泛发展，它可以自动发现所需的架构，避免了大量的手工架构工程和专门调整。在超网构建方面，提出了基于自编码器范式的 SMoA [53]，基于两个模态特定的编码器充分表示典型特征。为了解决目标模糊和细节丢失问题，Liu 等人 [54] 开发了一种分层聚合融合方法，旨在实现全面的目标和细节表示。此外，Liu 等人 [55] 提出了一种硬件延迟感知方法来构建轻量级网络，减少了计算需求并有助于实际部署。最近，提出了一种具有充分融合收敛性的隐式搜索策略 [56]，与现有方法 [57], [58] 相比显示出卓越的性能。
基于 GAN 的方法: 生成对抗网络 (GAN) [59] 已证明其在无标签监督下建模数据分布的有效性。这种无监督方法天然适用于 IVIF 任务，其中 GAN 已成为一种主要方法论。现有方法可分为两类，如图 5 所示：i) 单判别器 [60]–[70] 利用原始 GAN 来约束融合图像使其与某一模态相似。ii) 双判别器 [29], [71]–[83] 利用两个判别器来平衡典型的模态信息。