1. 摘要
过去方法的问题/不足:主要的融合框架包括图像变换、活动水平测量、融合规则设计三个关键部分;现有的方法通常在融合过程中对不同的源图像使用相同的变换或表示。但是对于红外图像和可见光图像可能不合适,因为红外图像中的热辐射和可见光图像中的出现是两种不同现象的表现。此外,现有方法中的活动水平测量和融合规则大多采用人工设计,且越来越复杂,存在执行难度和计算代价的限制
该方法建立了生成器和鉴别器之间的对抗博弈,生成器的目标是生成具有主要红外强度和附加可见光梯度的融合图像,而鉴别器的目标是迫使融合图像具有可见光图像中存在的更多细节。这使得最终的融合图像能够同时保持红外图像中的热辐射和可见光图像中的纹理。
贡献点:
- 提出了一种生成式对抗架构,并设计了一种用于红外与可见光图像融合的损失函数。讨论了gan算法用于图像融合的可行性和优越性。据我们所知,这是第一次采用gan算法来处理图像融合任务
- 该算法能够同时保留源图像的热辐射和纹理细节
- 它是一个端到端的模型,不需要人工设计融合规则
- 我们的结果看起来像锐化的红外图像,具有突出的目标和丰富的纹理。
- 我们将其推广到不同分辨率的图像融合,如热全色锐化。
2. 引言
图像融合问题已经用不同的方案开发,如多尺度变换、稀疏表示、神经网络、子空间、基于显著性的方法、混合模型以及其他方法
多尺度变换:将原始图像分解为不同尺度的分量,其中每个分量表示每个尺度的分量,真实世界对象通常包含不同尺度的分量。通常基于多尺度变换的红外和可见光图像融合方案包括三个步骤[。首先,将每幅源图像分解为一系列多尺度表示。然后,根据给定的融合规则对源图像的多尺度表示进行融合。最后,在融合表示上使用相应的逆多尺度变换来获得融合图像。
稀疏表示图像融合方法旨在从大量高质量的自然图像中学习一个过完备的字典。然后,源图像可以由学习字典稀疏地表示,从而潜在地增强有意义和稳定图像的表示。同时,基于稀疏表示的融合方法使用滑动窗口策略将源图像划分为若干重叠块,从而潜在地减少视觉伪影并提高对配准不良的鲁棒性
基于神经网络的方法模仿人脑处理神经信息的感知行为,神经元之间的相互作用表征了神经元信息的传递和处理,神经网络具有较强的自适应性、容错性和抗噪能力,基于神经网络的红外与可见光图像融合方法大多采用脉冲耦合神经网络或其变体
基于子空间的方法旨在将高维输入图像投影到低维空间或子空间中。对于大多数自然图像,存在冗余信息,低维子空间可以帮助捕获原始图像的内在结构。因此,基于子空间的方法,包括主成分分析、非负矩阵分解和独立成分分析,已成功应用于红外和可见光图像融合
基于显著性的方法是基于这样的事实,即注意力往往被比其邻居更重要的对象或像素所捕获,并且基于显著性的融合方法可以保持显著对象区域的完整性并改善融合图像的视觉质量
主要的融合框架涉及三个关键组件,包括图像变换、活动水平测量和融合规则设计
从一个新的角度提出了一种基于生成式对抗网络的红外与可见光图像融合方法,该方法将融合过程描述为保持红外热辐射信息和保持可见光外观纹理信息之间的对抗博弈。
将融合算法定义为保持红外热辐射信息与保持可见外观纹理信息的对抗博弈。这使得我们的融合图像能够同时保持红外图像中的热辐射和可见光图像中的纹理细节。此外,生成式对抗网络的端到端特性可以避免人工设计复杂的活动水平度量和融合规则
3.网络详情
3.1 训练过程
将红外和可见光图像融合问题公式化为一个对抗性问题,如下图所示
- 一开始我们在channel维度上concat红外图像 l r l_r lr和可见光图像 l v l_v lv
- 拼接的图像作为生成器 G θ G G_{\theta_G} GθG的输入,然后输出的是融合图像 I f I_f If,在没有鉴别器的情况下融合图像倾向保留可见光图像 I v I_v Iv的梯度信息和红外图像 I r I_r Ir的热辐射信息
- 之后,我们将融合图像 I f I_f If和可见光图像 I v I_v Iv输入到鉴别器 D θ D D_{\theta_D} DθD中,其旨在区分 I f I_f If和 I v I_v Iv
- FusionGAN在生成器
G
θ
G
G_{\theta_G}
GθG和鉴别器
D
θ
D
D_{\theta_D}
DθD之间建立了一个对抗博弈,
I
f
I_f
If将
逐渐包含可见光图像
I v I_v Iv中越来越多的细节信息。(这里可以发现鉴别器的作用只是对可见光信息的的提取有用,忽略了红外光图像,这就是在DDcGAN中的两个鉴别器的作用)在训练阶段期间,一旦生成器 G θ G G_{\theta_G} GθG生成样本(即,如果)不能被鉴别器 D θ D D_{\theta_D} DθD区分,我们可以得到期望的融合图像 I f I_f If
3.2 测试过程
我们只将 I f I_f If和 I v I_v Iv的拼接图像输入到训练好的生成器 G θ G G_{\theta_G} GθG中, G θ G G_{\theta_G} GθG的输出就是我们最终的融合结果。
3.3 Loss function
我们FusionGAN的损失函数由两部分组成,即:生成器的损失函数 G θ G G_{\theta_G} GθG和鉴别器的损失函数 D θ D D_{\theta_D} DθD
the loss function of generator G θ G G_{\theta_G} GθG
L G = V F u s i o n G A N ( G ) + λ L c o n t e n t L_G = V_{FusionGAN}(G) + λL_{content} LG=VFusionGAN(G)+λLcontent
- L G L_G LG 表示total loss
- 其中左边这部分表述的是生成器和判别器的对抗损失
- V F u s i o n G A N ( G ) = 1 N ∑ i = 1 N ( D θ D ( I f n − c ) 2 V_{FusionGAN}(G) = \frac{1}{N}\sum_{i=1}^N(D_{\theta_D}(I^n_f-c)^2 VFusionGAN(G)=N1∑i=1N(DθD(Ifn−c)2
- 其中 I f n I^n_f Ifn表示融合图像,其中n ∈ N N N_N NN,N表示融合图像的数量,并且c是生成器希望鉴别器相信假数据的值
- L c o n t e n t L_{content} Lcontent表示内容损失, λ \lambda λ是在 V F u s i o n G A N ( G ) V_{FusionGAN}(G) VFusionGAN(G)和 L c o n t e n t L_{content} Lcontent取得平衡的
- 由于红外图像的热辐射信息由其像素强度来表征,而可见光图像的纹理细节信息可以部分地由其梯度来表征,因此我们强制融合图像If具有与
I
r
I_r
Ir相似的强度和与
I
v
I_v
Iv相似的梯度
- L c o n t e n t = 1 H ( ∣ ∣ I f − I r ∣ ∣ F 2 + ξ ∣ ∣ ∇ I f − ∇ I v ∣ ∣ F 2 ) L_{content} =\frac{1}{H}(||I_f − I_r||^2_F + ξ||∇I_f −∇I_v||^2_F) Lcontent=H1(∣∣If−Ir∣∣F2+ξ∣∣∇If−∇Iv∣∣F2)
- H,W 分别代表输入图片的高和宽
- ∣ ∣ ∗ ∣ ∣ F ||*||_F ∣∣∗∣∣F代表矩阵Fribenius范数
- ∇ ∇ ∇代表梯度算子
- L c o n t e n t L_{content} Lcontent的第一项旨在保留融合图像 I f I_f If中红外图像 I r I_r Ir的热辐射信息, L c o n t e n t L_{content} Lcontent的第二项旨在保留可见光图像 I v I_v Iv中包含的梯度信息, ξ ξ ξ是控制两项之间折衷的正参数
the loss function of f discriminator D θ D D_{\theta_D} DθD
L D = 1 N ∑ i = 1 N ( D θ D ( I v − b ) 2 + 1 N ∑ i = 1 N ( D θ D ( I f ) − a ) 2 L_D = \frac{1}{N}\sum_{i=1}^N(D_{\theta_D}(I_v-b)^2+\frac{1}{N}\sum_{i=1}^N(D_{\theta_D}(I_f)-a)^2 LD=N1i=1∑N(DθD(Iv−b)2+N1i=1∑N(DθD(If)−a)2
- 其中a和b分别代表融合图像 l f l_f lf和可见光图像 l v l_v lv的标号
- D θ D ( I v ) D_{\theta_D}(I_v) DθD(Iv)和 D θ D ( I f ) D_{\theta_D}(I_f) DθD(If)分别表示可见光图像和融合图像的分类结果
- 鉴别器被设计为基于从融合图像和可见光图像中提取的特征来区分融合图像和可见光图像
3.4 生成器 G θ G G_{\theta_G} GθG结构
G θ G G_{\theta_G} GθG是一个简单的五层卷积神经网络,具有5个卷积层、4个批量归一化层、4个leaky ReLU激活层和1个tanh激活层
- 其中第一层和第二层使用5 × 5滤波器,第三层和第四层使用3 × 3滤波器,最后一层使用1 × 1滤波器。每层中的跨距被设置为1,并且在卷积中没有填充操作。
- 我们的发生器的输入是一个没有噪声的级联图像。为了提高生成图像的多样性,许多工作通常通过卷积层来提取输入图像的特征图,然后利用转置将图像重构为输入图片相同大小
引入卷积层而不进行下采样是因为每个下采样过程都会丢失源图像中的一些细节信息。为了避免梯度消失的问题,遵循深卷积GAN 的规则进行批量归一化和激活函数
3.5 判别器 D θ D D_{\theta_D} DθD结构
- 从第一层到第四层,我们在卷积层使用3 × 3滤波器,并将步长设置为2而不填充
- 判别器网络与生成器网络不同,鉴别器是一个分类器。它首先从输入图像中提取特征图,然后对它们进行分类。因此,它的工作方式与池化层相同,只是将步长设置为2。为了不引入噪声,我们只对第一层的输入图像进行填充操作,其余三层不进行填充。从第二层到第四层,我们使用批量归一化层。另外,我们在前四层使用了泄漏ReLU激活函数。最后一层为线性层,主要用于分类
3.6 训练细节
- 从TNO数据库中选取了45对不同场景的红外和可见光图像作为训练数据。但这不足以训练出一个好的模型
- 通过将布长设置为14来裁剪每幅图像,每个patch的大小都是相同的120 × 120,就能得到64381对红外和可见光patches
- 训练数据中选取m对红外和可见光图像块,然后将它们填充到132×132的大小,作为生成器的输入。生成器输出的融合图像块大小为120 × 120
- 训练鉴别器k次,优化器求解器是Adam ,然后我们训练发生器,直到达到最大训练迭代次数
- 对测试数据进行无重叠裁剪,并将其批量输入到 G θ G G_{\theta_G} GθG生成器中。然后将生成器的结果按照裁剪的顺序进行拼接,得到最终的融合图像
4.总结
内容损失
旨在保留红外图像中的辐射信息和可见光图像中的梯度信息,而对抗损失
旨在保留表征可见光图像中的细节信息的其他重要属性,诸如图像对比度、饱和度和照明变化。
在对抗过程中,生成器不断地将融合图像中的细节信息的分布拟合到可见光图像中的细节信息的分布,同时保留红外辐射信息。当鉴别器不能区分融合图像和可见光图像时,则认为融合图像中的细节信息分布与可见光图像中的细节信息分布相同,因此融合图像在视觉上具有更多的纹理细节
提出了一种基于生成式对抗网络的红外与可见光图像融合方法。该方法能够同时保留红外图像的热辐射信息和可见光图像的纹理细节信息。FusionGAN是一种端到端的模型,避免了传统融合策略中人工设计复杂的活动水平度量和融合规则。在公共数据集上的实验结果表明,融合后的红外图像具有清晰的高亮目标和丰富的细节信息,有利于基于图像融合的目标检测与识别系统