TarDAL(Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse)

本文提出了一种双层优化模型,用于同时解决红外和可见光图像的融合和目标检测问题。通过目标感知的双对抗学习网络(TarDAL),该方法能够在保留红外图像目标结构和可见图像纹理细节的同时进行融合。实验结果显示,这种方法不仅提高了融合图像的视觉质量,还提升了检测的平均精度。此外,文章还介绍了一个新的多场景多模态基准数据集,用于推动相关领域的研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.摘要

这项研究解决了红外和可见图像在目标检测中呈现不同的问题。为了生成高视觉质量的图像,先前的方法发现了这两种模态的共同基础,并通过迭代优化或深度网络在共同空间中进行融合。这些方法忽视了模态差异暗示的互补信息对于融合和后续检测任务的极端重要性。本文提出了一个双层优化形式,用于联合融合和检测问题,并展开成一个目标感知的双对抗学习(TarDAL)网络用于融合,以及一个常用的检测网络。融合网络具有一个生成器和双判别器,旨在在学习差异的同时寻找共同点,从而保留红外目标的结构信息和可见图像的纹理细节。此外,我们构建了一个具有校准红外和光学传感器的同步成像系统,并目前收集了涵盖各种场景的最全面的基准测试数据集。对几个公共数据集和我们的基准测试进行了大量实验,结果表明我们的方法不仅输出视觉上吸引人的融合图像,而且比最先进的方法具有更高的检测平均精度(mAP)。

联合融合是指将来自不同传感器或模态的信息进行合并,以提高目标检测;

目标感知是指在计算机视觉和机器学习领域中,对图像或视频中的目标进行有效的理解和认知的能力。

2.引言

在过去的几十年中,已经开发了许多旨在改善视觉质量的红外和可见光图像融合(IVIF)方法。传统的多尺度变换、优化模型、稀疏表示和子空间方法尝试发现这两种模态的内在共同特征,并设计适当的融合权重规则。这些方法通常采用迭代优化过程。最近,研究人员通过在训练过程中使用具有冗余的精心准备的图像对来引入深度网络到IVIF中,以学习强大的特征表示和/或融合策略。融合被证明是一个高效的推断过程,可以获得显著的质量改进。然而,无论是传统的还是深度的IVIF方法都致力于提高质量,但忽略了后续的检测,而这对于许多实际的计算机视觉应用来说是关键的。融合更加注重“寻求共同点”,但忽略了这两种模态在呈现目标结构信息和环境背景的纹理细节方面的差异。这些差异在区分目标的不同特征以进行目标检测的同时生成高对比度的清晰外观中起着关键作用,便于人工检查。

"冗余"指的是图像对中的信息重复或相似性。具有冗余的图像对意味着红外图像和可见光图像在内容和特征上具有相似性。这意味着它们捕捉到相同的场景或对象,并且提供类似的信息。

这段描述强调了在红外和可见光图像融合中理解和利用两种模态之间的差异的重要性,以获得更好的目标检测性能和可视化效果。

此外,从这些差异(实际上是互补信息)中学习需要从这两种模态中收集大量的图像数据。在光照和天气变化的不同场景中捕捉到的图像具有显着不同的特征。不幸的是,现有的数据集只涵盖有限的条件,这对于学习互补信息并验证其有效性构成了障碍。

本文针对融合和检测的联合问题提出了一个双层优化形式。这个形式展开成一个精心设计的双对抗融合网络,由一个生成器两个目标感知判别器组成,以及一个常用的检测网络。一个判别器区分红外成像的图像域中的前景热目标,而另一个判别器区分可见图像的梯度域中的背景纹理细节。我们还推导出一种协同训练策略,为两个网络学习最优参数。图1展示了我们的方法通过具有目标独特性和视觉吸引

我们的贡献有四个方面:

  • 我们采用了一个双层优化形式,既可以进行图像融合,又可以进行目标检测,从而实现了高精度的检测和具有更好视觉效果的融合图像。
  • 我们设计了一个适用于检测导向融合的目标感知双对抗学习网络(TarDAL),该网络具有更少的参数。这个包含一个生成器和双判别器的网络在“寻求共同点的同时从差异中学习”,从红外图像中保留目标信息,从可见光图像中保留纹理细节。
  • 我们从双层优化形式中推导出一种协同训练方案,以获得用于快速推断(融合和检测)的最优网络参数。

3.相关工作

3.1 基于学习的方法

由于多层神经网络具有强大的非线性拟合能力,深度学习在低级别视觉任务中取得了令人期待的进展。早期的研究将深度网络插入到IVIF过程中,作为特征提取或权重生成的模块。Liu等人级联了两个预训练的CNN,一个用于特征学习,另一个用于权重学习。研究人员还采用端到端的架构,使得一步网络推断可以通过一组网络参数生成一个合理的融合图像。Li等人引入了一个残差融合网络,在一个共同的空间中学习增强特征,产生结构一致的结果,便于人工检查。
最近,基于生成对抗网络(GAN)的IVIF方法通过将不同的分布转换为期望的分布产生吸引人的结果。Ma等人首次介绍了一个对抗博弈,用于增强纹理细节。然而,这种信号对抗机制可能会丢失红外信号中的关键信息。Ma等人将相同的对抗策略应用于可见光和红外图像,部分补偿了红外信息。==不幸的是,所有这些方法都未能捕捉到这两种成像类型的不同特征。==因此,值得研究这些相互补充的差异,从中既可以获益于融合,又可以获益于目标检测。

3.2. Benchmarks

近年来,我们目睹了IVIF基准数据集的快速发展,包括TNO Image Fusion 、INO Videos Analytics1、OSU Color-Thermal2、RoadScene 和Multispectral数据集。TNO数据集 是最常用的公开可用的IVIF数据集,包含261对白天和夜晚的多光谱图像。INO数据集由加拿大国家光学研究所提供,包含配准的红外和可见光图像对,有助于在具有挑战性的环境中开发用于视频分析应用的多种传感器类型。OSU Color-Thermal数据库是为基于融合的目标检测而建立的,包含285对注册的红外和彩色可见光图像。整个数据集在俄亥俄州立大学校园的繁忙路径上白天采集。Xu等人发布了Roadscene数据集,其中包含221对配准的红外和可见光图像,拍摄于包含车辆和行人等丰富对象的道路场景中 。Takumi等人提出了一种用于自动驾驶的新型多光谱数据集,包括RGB、NIR、MIR和FIR图像以及注释的目标类别。

表格1列出了这些数据集的规模、分辨率、光照和场景类别等信息。现有数据集的图像分辨率较低,目标和场景类型有限,标注的样本数量较少,这限制了它们在多模态的高级目标检测任务中的广泛应用。

4.方法

本节详细介绍我们的方法,从融合和检测的双层优化形式开始。然后,我们详细说明了用于融合的目标感知双对抗学习网络。最后,我们提出了一个协同训练方案,以学习融合和检测的最优参数。

4.1. Problem formulation

本文提出了IVIF(Infrared-Visible Image Fusion)方法,旨在生成一张既适合人类肉眼观察又适合计算机感知,特别是物体检测的图像。假设红外、可见光和融合后的图像都是灰度图像,大小为m×n,则它们分别表示为列向量 x 、 y 和 u ∈ R m n × 1 x、y和u∈R^{mn×1} xyuRmn×1。遵循公理Stackelberg的理论,我们将面向检测的融合公式化为双层优化模型:

m i n w d L d ( ψ ( u ∗ ; w d ) ) , ( 1 ) \underset{w_d}{min} L_d(\psi(u^*;w_d)),\quad (1) wdminLd(ψ(u;wd)),(1)

s . t . u ∗ ∈ a r g m i n u f ( u ; x , y ) + g T ( u ; x ) + g D ( u ; y ) , ( 2 ) s.t.u^* \in arg \underset{u}{min} f(u;x,y)+g_T(u;x)+g_D(u;y),\quad(2) s.t.uarguminf(u;x,y)+gT(u;x)+gD(u;y),(2)

其中 L d L^d Ld表示检测特定的训练损失, ψ \psi ψ表示带有可学习参数 ω d ω_d ω

### 如何使用不同的数据集训练 TARDAL 模型 为了成功地在新的数据集上训练 TARDAL 模型,需要完成以下几个方面的配置: #### 数据预处理 对于任何深度学习模型来说,数据的质量和一致性至关重要。如果要切换到一个新的数据集来训练 TARDAL,则需确保新数据集经过适当的预处理步骤。这通常包括但不限于图像尺寸调整、标准化以及可能的数据增强操作。 - **图像尺寸调整**: 如果原始 TARDAL 的输入大小固定 (比如 224x224),那么所有来自新数据集的图片都需要被重新缩放到该尺寸[^1]。 - **标准化**: 使用与原训练集中相同的均值和标准差对像素值进行归一化处理是非常重要的一步。如果不采用相同的标准参数,可能会导致模型性能下降或者收敛困难。 - **数据增强**: 可以为提高泛化能力而引入一些常见的图像变换技术,如旋转、翻转和平移等。这些方法有助于增加样本多样性从而改善最终效果。 #### 修改网络结构适配特定任务需求 有时更换数据源意味着改变了目标分类的数量或者其他相关特性(例如回归问题中的输出维度变化)。因此,在实际应用之前还需要考虑是否有必要调整神经网络架构本身: - 当前版本下的最后一层全连接层应该依据新类别数目做出相应修改; - 若涉及多标签预测场景,则要考虑激活函数的选择(Sigmoid vs Softmax); - 对于序列建模类别的情况而言, RNN/LSTM单元数量也可能成为调优方向之一. #### 设置合适的训练策略 一旦完成了上述准备工作之后就可以着手构建整个流程了。这里有几个要点需要注意: - **初始化权重**: 如果是从头开始训练的话就无需特别关注这一点;然而如果是迁移学习情境下继续微调已有的大型预训练模型则建议保持原有参数不变仅替换掉最后几层新增加的部分. - **优化器选择及其超参调节**: Adam optimizer因其良好的默认表现常作为首选方案,但具体的学习率衰减机制还是得视项目具体情况灵活设定。 - **损失函数定义**: 根据目标任务的不同选取恰当形式的成本度量方式,像交叉熵适用于单选或多选分类情形,而对于连续变量估计则更多倾向于MSE(mean squared error). 以下是基于PyTorch框架的一个简单实现例子展示如何加载自定义数据集并对TARDAL模型执行基本训练过程: ```python import torch from torchvision import datasets, transforms from torch.utils.data import DataLoader from tardal_model import TARDALModel # 假设这是您导入的TARDAL模型模块 # 定义转换规则 transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]) # 加载自定义数据集 train_dataset = datasets.ImageFolder(root='path_to_your_train_data', transform=transform) val_dataset = datasets.ImageFolder(root='path_to_your_val_data', transform=transform) train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False) device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = TARDALModel(num_classes=len(train_dataset.classes)).to(device) criterion = torch.nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.001) for epoch in range(epochs): model.train() running_loss = 0.0 for inputs, labels in train_loader: inputs, labels = inputs.to(device), labels.to(device) outputs = model(inputs) loss = criterion(outputs, labels) optimizer.zero_grad() loss.backward() optimizer.step() running_loss += loss.item() print(f"Epoch {epoch+1}, Loss: {running_loss/len(train_loader)}") with torch.no_grad(): correct = total = 0 for images, labels in val_loader: images, labels = images.to(device), labels.to(device) predicted = model(images).argmax(dim=-1) total += labels.size(0) correct += (predicted == labels).sum().item() accuracy = 100 * correct / total print(f"Validation Accuracy after Epoch {epoch+1}: {accuracy}%") ```
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值