TarDAL（Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse）

最新推荐文章于 2025-05-09 10:31:19 发布

原创

最新推荐文章于 2025-05-09 10:31:19 发布

· 5.4k 阅读

36 ·

版权

文章标签：

#深度学习 #人工智能 #机器学习

本文提出了一种双层优化模型，用于同时解决红外和可见光图像的融合和目标检测问题。通过目标感知的双对抗学习网络（TarDAL），该方法能够在保留红外图像目标结构和可见图像纹理细节的同时进行融合。实验结果显示，这种方法不仅提高了融合图像的视觉质量，还提升了检测的平均精度。此外，文章还介绍了一个新的多场景多模态基准数据集，用于推动相关领域的研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.摘要

这项研究解决了红外和可见图像在目标检测中呈现不同的问题。为了生成高视觉质量的图像，先前的方法发现了这两种模态的共同基础，并通过迭代优化或深度网络在共同空间中进行融合。这些方法忽视了模态差异暗示的互补信息对于融合和后续检测任务的极端重要性。本文提出了一个双层优化形式，用于联合融合和检测问题，并展开成一个目标感知的双对抗学习（TarDAL）网络用于融合，以及一个常用的检测网络。融合网络具有一个生成器和双判别器，旨在在学习差异的同时寻找共同点，从而保留红外目标的结构信息和可见图像的纹理细节。此外，我们构建了一个具有校准红外和光学传感器的同步成像系统，并目前收集了涵盖各种场景的最全面的基准测试数据集。对几个公共数据集和我们的基准测试进行了大量实验，结果表明我们的方法不仅输出视觉上吸引人的融合图像，而且比最先进的方法具有更高的检测平均精度（mAP）。

联合融合是指将来自不同传感器或模态的信息进行合并，以提高目标检测；

目标感知是指在计算机视觉和机器学习领域中，对图像或视频中的目标进行有效的理解和认知的能力。

2.引言

在过去的几十年中，已经开发了许多旨在改善视觉质量的红外和可见光图像融合（IVIF）方法。传统的多尺度变换、优化模型、稀疏表示和子空间方法尝试发现这两种模态的内在共同特征，并设计适当的融合权重规则。这些方法通常采用迭代优化过程。最近，研究人员通过在训练过程中使用具有冗余的精心准备的图像对来引入深度网络到IVIF中，以学习强大的特征表示和/或融合策略。融合被证明是一个高效的推断过程，可以获得显著的质量改进。然而，无论是传统的还是深度的IVIF方法都致力于提高质量，但忽略了后续的检测，而这对于许多实际的计算机视觉应用来说是关键的。融合更加注重“寻求共同点”，但忽略了这两种模态在呈现目标结构信息和环境背景的纹理细节方面的差异。这些差异在区分目标的不同特征以进行目标检测的同时生成高对比度的清晰外观中起着关键作用，便于人工检查。

"冗余"指的是图像对中的信息重复或相似性。具有冗余的图像对意味着红外图像和可见光图像在内容和特征上具有相似性。这意味着它们捕捉到相同的场景或对象，并且提供类似的信息。

这段描述强调了在红外和可见光图像融合中理解和利用两种模态之间的差异的重要性，以获得更好的目标检测性能和可视化效果。

此外，从这些差异（实际上是互补信息）中学习需要从这两种模态中收集大量的图像数据。在光照和天气变化的不同场景中捕捉到的图像具有显着不同的特征。不幸的是，现有的数据集只涵盖有限的条件，这对于学习互补信息并验证其有效性构成了障碍。

本文针对融合和检测的联合问题提出了一个双层优化形式。这个形式展开成一个精心设计的双对抗融合网络，由一个生成器和两个目标感知判别器组成，以及一个常用的检测网络。一个判别器区分红外成像的图像域中的前景热目标，而另一个判别器区分可见图像的梯度域中的背景纹理细节。我们还推导出一种协同训练策略，为两个网络学习最优参数。图1展示了我们的方法通过具有目标独特性和视觉吸引

我们的贡献有四个方面：

我们采用了一个双层优化形式，既可以进行图像融合，又可以进行目标检测，从而实现了高精度的检测和具有更好视觉效果的融合图像。
我们设计了一个适用于检测导向融合的目标感知双对抗学习网络（TarDAL），该网络具有更少的参数。这个包含一个生成器和双判别器的网络在“寻求共同点的同时从差异中学习”，从红外图像中保留目标信息，从可见光图像中保留纹理细节。
我们从双层优化形式中推导出一种协同训练方案，以获得用于快速推断（融合和检测）的最优网络参数。

3.相关工作

3.1 基于学习的方法

由于多层神经网络具有强大的非线性拟合能力，深度学习在低级别视觉任务中取得了令人期待的进展。早期的研究将深度网络插入到IVIF过程中，作为特征提取或权重生成的模块。Liu等人级联了两个预训练的CNN，一个用于特征学习，另一个用于权重学习。研究人员还采用端到端的架构，使得一步网络推断可以通过一组网络参数生成一个合理的融合图像。Li等人引入了一个残差融合网络，在一个共同的空间中学习增强特征，产生结构一致的结果，便于人工检查。
最近，基于生成对抗网络（GAN）的IVIF方法通过将不同的分布转换为期望的分布产生吸引人的结果。Ma等人首次介绍了一个对抗博弈，用于增强纹理细节。然而，这种信号对抗机制可能会丢失红外信号中的关键信息。Ma等人将相同的对抗策略应用于可见光和红外图像，部分补偿了红外信息。==不幸的是，所有这些方法都未能捕捉到这两种成像类型的不同特征。==因此，值得研究这些相互补充的差异，从中既可以获益于融合，又可以获益于目标检测。

3.2. Benchmarks

近年来，我们目睹了IVIF基准数据集的快速发展，包括TNO Image Fusion 、INO Videos Analytics1、OSU Color-Thermal2、RoadScene 和Multispectral数据集。TNO数据集是最常用的公开可用的IVIF数据集，包含261对白天和夜晚的多光谱图像。INO数据集由加拿大国家光学研究所提供，包含配准的红外和可见光图像对，有助于在具有挑战性的环境中开发用于视频分析应用的多种传感器类型。OSU Color-Thermal数据库是为基于融合的目标检测而建立的，包含285对注册的红外和彩色可见光图像。整个数据集在俄亥俄州立大学校园的繁忙路径上白天采集。Xu等人发布了Roadscene数据集，其中包含221对配准的红外和可见光图像，拍摄于包含车辆和行人等丰富对象的道路场景中。Takumi等人提出了一种用于自动驾驶的新型多光谱数据集，包括RGB、NIR、MIR和FIR图像以及注释的目标类别。

表格1列出了这些数据集的规模、分辨率、光照和场景类别等信息。现有数据集的图像分辨率较低，目标和场景类型有限，标注的样本数量较少，这限制了它们在多模态的高级目标检测任务中的广泛应用。

4.方法

本节详细介绍我们的方法，从融合和检测的双层优化形式开始。然后，我们详细说明了用于融合的目标感知双对抗学习网络。最后，我们提出了一个协同训练方案，以学习融合和检测的最优参数。

4.1. Problem formulation

本文提出了IVIF（Infrared-Visible Image Fusion）方法，旨在生成一张既适合人类肉眼观察又适合计算机感知，特别是物体检测的图像。假设红外、可见光和融合后的图像都是灰度图像，大小为m×n，则它们分别表示为列向量 $x、y和u∈R^{mn×1}$ 。遵循公理Stackelberg的理论，我们将面向检测的融合公式化为双层优化模型：