《Unsupervised Misaligned Infrared and Visible Image Fusion via Cross-Modality Image Generation and Registration》
基于跨模态图像生成和配准的无监督红外与可见光图像融合
一、摘要
近年来,基于学习的图像融合方法在多模态数据预配准方面取得了长足的进步,但在多模态数据配准不一致的情况下,由于多模态数据的空间变形和模态间差异难以缩小,会产生严重的伪影。为此提出了一种鲁棒的无监督错位红外与可见光图像融合(IVIF)的跨模态生成-配准方法.具体地说,我们提出了一个跨模态感知风格传输网络(CPSTN),以产生伪红外图像,以可见光图像作为输入。利用CPSTN良好的几何保持能力,生成的伪红外图像具有清晰的结构特征,结合红外图像的结构敏感性,更有利于将跨模态图像配准转化为单模态配准。在此基础上,引入多级精细配准网络(MRRN)预测畸变红外图像与伪红外图像之间的位移矢量场,并在单模态条件下重建配准后的红外图像。此外,为了更好地融合配准后的红外图像和可见光图像,提出了一种特征交互融合模块(IFM),用于在双路交互融合网络(DIFN)中自适应地选择更有意义的特征进行融合。大量实验结果表明,该方法对错位的多模态图像融合具有上级的性能。
1、存在的问题
(1)红外图像和可见光图像之间存在较大的跨模态差异,使得共享特征空间中之间桥接他们之间的域间隙变得不现实,再加上缺乏跨模态相似性约束,很少有人尝试融合错位的红外和可见光图像。主要障碍是跨模态图像对准。一些模型对红外和可见光图像的灰度差异非常敏感,一旦出现微小的偏移和变形,融合图像就会出现严重的重影伪影。
(2)现有的广泛的图像配准方法通过显式地估计失真图像和其参考之间的变形场来执行逐像素和特征级对准。然而,它们仅在单一模态设置下工作,因为它们高度依赖于具有邻域参考的合成或真实的数据上的分布和外观的相似性。
1、文章主要贡献
(1)我们提出了一个高度鲁棒的无监督红外和可见光图像融合框架,与专门用于预配准图像的基于学习的融合方法相比,该框架更专注于减轻由未对齐图像对融合引起的重影伪影。
(2)考虑到跨模态图像配准的困难,我们采用了一种专门的跨模态生成-配准范式来弥合模态之间的巨大差异,从而实现有效的红外和可见光图像配准。
(3)设计了交互融合模块,实现了多模态特征的自适应融合,避免了因融合规则不成熟而造成的特征平滑,突出了真实的纹理细节。
二、方法
1、动机
不同的成像管道和传感器内部的散热导致观察到的红外和可见光图像之间的不对准,表现为移位和变形。通过观察发现,红外与可见光图像错位直接融合时,往往会出现严重的重影现象。
2、跨模态感知风格迁移
提出的跨模态生成配准范例(CGRP)的第一部分是图像翻译。考虑到红外图像易受热辐射的影响而发生畸变,提出了一种跨模态感知风格转换网络(CPSTN),用于将可见光图像Ivis转换为红外图像Iir。同时,形成伪红外图像对(Iir,Iir)以提供统一的表示。如图1所示,CPSTN是一个类似UNet的生成器,其底部获得9个resnet块。不同于CycleGAN ,我们倾向于设计一种由感知风格迁移约束控制的特定学习策略,并建立两个循环生成路径之间的路径间相关性,以进一步优化[1]生成伪红外图像的清晰结构。伪红外图像的生成公式为:,其中Tθ表示带网络参数θ的CPSTN。这个优化过程在图1中的左虚线框中示出。请注意,G(A)对应于我们的CPSTN,感知风格转移约束和路径间相关性的正则化在后面解释。
3、多级细化配准
由于CPSTN减少了跨模态差异,单模态设置下的红外图像配准成为CGRP的另一个核心部分。如图1所示,我们利用多级细化配准网络(MMRN)来预测失真和伪红外图像之间的变形场,并重建配准的红外图像。MRRN由一个共享的多级特征提取器(SM-FE),两个粗到细变形场估计(C2F-DFE)模块,和一个重采样器层。在每个C2F-DFE中,包括粗DFE模块MC和精DFE模块MR。然后,首先将粗变形场预测为:
精细变形场估计如下:
其中表示SM-FM的第k个能级。假设SM-FE包含K个能级,当k = K时,估计最终的形变场
。最后,我们使用与重采样器层类似的重采样器层STN通过以下方式重建配准的红外图像:
运算符表示用于配准的空间变换。
4、双路交互融合
为了融合配准的红外图像和可见光图像
,提出了一种双路交互融合网络(DIFN)。该系统包括双路径特征提取特征交互融合模块。双路径特征提取模块的结构继承了残差密集网络[2],提取的特征由下式表示:
其中MθE是特征提取模块,θE是其参数。
(1)交互融合模块
我们利用IFM从红外和可见光图像中自适应地选择特征进行融合,如图1的小虚线框所示。为了关注更重要的信息,特征响应被重新校准,
红外和可见光特征被激活为:
然后,我们通过以下步骤获得最终融合图像:
其中,S是Sigmoid函数,并且表示逐元素乘法运算。
5、损失函数
(1)感知风格转移损失
为了生成更逼真的伪红外图像,我们引入了感知风格转移(PST)损失来控制CPSTN的周期一致性。PST损失由两个术语组成,称为感知损失和风格损失
。首先,
定义为:
其中,是VGG-19模型的第j层,j ∈ [2,7,12,21,30]沿着,权重
。这些特征还用于计算
,其被定义为
(2)交叉正则化损失
提出了在训练CPSTN过程中两个循环路径之间的交叉正则化,以建立路径间的相关性。它包含内容项Lcon和边缘项Ledge,定义为
(3)配准损失
在特征空间中采用双向相似性损失来约束畸变红外图像与伪红外图像的配准,定义为
第一项是向前的,而第二项是向后的,权重λrev = 0.2,其中反向变形场φ用于使伪红外图像Iir失真,并使其接近失真的输入Iir。
参考文献
[1] Risheng Liu, Pan Mu, Xiaoming Yuan,Shangzhi Zeng, and Jin Zhang. A general descent aggre-gation framework for gradient-based bi-level optimization.IEEE Transactions on Pattern Analysis andMachine Intel-ligence, 2022.
[2] Yulun Zhang, Yapeng Tian, Yu Kong,Bineng Zhong, and Yun Fu. Residual dense network for
image restoration. IEEE Transactions on Pattern Analysisand Machine Intelligence, 43(7):2480–2495, 2021.