论文阅读:《Res2NetFuse: A Fusion Method for Infrared and Visible Images》

该研究提出了一种基于Res2Net的融合框架,用于红外与可见光图像融合。利用Res2Net编码器提取多尺度特征,结合注意力模型实现有效融合。实验显示,这种方法在主客观评价上超越了现有方法,且仅需单个图像进行训练,减少了训练时间。

摘要:

提出了一种新的基于Res2Net的红外与可见光图像融合框架
该融合模型由三部分组成:编码器、融合层和解码器。
基于Res2Net的编码器用于提取源图像的多尺度特征,本文介绍了一种新的训练策略,用于训练基于Res2Net的编码器仅使用单个图像。
然后,基于注意力模型提出了一种新的融合策略。
最后,解码器重建融合图像。对所提出的方法也进行了详细的分析。实验表明,与现有方法相比,该方法在主客观评价上取得了最先进的融合性能。

I. INTRODUCTION

图像融合是图像处理中的一项重要任务,其目的是利用融合方法[1]将源图像的显著特征整合为一幅图像
红外与可见光图像的融合是图像融合中一个极具挑战性的课题。由于红外图像和可见光图像的成像原理不同,它们所包含的同一场景的信息也不同。因此,解决红外与可见光图像的融合问题在许多应用中具有重要意义。

在图像融合领域,已有许多方法被提出。
一般来说,多尺度变换(multiscale transform, MST)方法是图像融合领域中最常用的方法。
基于mst的方法的主要步骤包括分解、融合和重构。然而,基于mst的方法在反变换过程中会丢失源图像的有效信息,从而影响最终的融合结果[2]。

近年来,基于表示学习的图像融合方法得到了广泛的发展。在稀疏表示(SR)中,Liu等人[3]基于稀疏系数获取源图像的全局和局部显著性映射进行融合。Liu等人[4]提出了一种MST和SR相结合的图像融合总体框架,克服了基于MST和SR的融合方法的固有缺陷。
在低秩表示(LRR)中,Li等人将LRR与字典学习同时结合,[5]在全局和局部结构上都获得了更好的性能。

随着深度学习的发展,许多基于深度学习的图像融合方法被提出
2017年,Liu等人[6]提出了一种在卷积神经网络(CNN)模型下联合生成活动水平测量和融合规则的方法。
2018年,Li et al.[7]使用预训练的VGG-19[8]提取特征。然后,他们充分利用中间层特征生成融合图像。
2019年,Li et al.[9]提出了一种新的图像融合深度学习体系结构,称为DenseFuse。融合框架由编码网络、融合层和解码网络组成。但他们没有考虑网络中的多尺度特征。
为了解决这一问题,Song et al.[10]提出了一种用于医学图像融合的MSDNet。他们在Li 's[9]的编码器末端增加了一个多尺度层来获得多尺度特征,取得了很好的融合效果。

因此,本文从多尺度的角度,将Res2Net[11]的思想嵌入到编码器中。Res2Net是一种新的多尺度骨干架构,将在第二节a中介绍。本文提出的融合方法的主要贡献如下:
(1)采用Res2Net进行图像融合,时间较短。我们将Res2Net应用到我们的编码器中,以更细粒度的方式提取多尺度图像特征
(2)一个有趣的方面是,我们发现只使用一幅自然图像就可以学习到一个有效的重建模型,而且重建模型的性能与经过80000幅图像训练的重建模型相当。这大大减少了模型的训练时间。
(3)提出一种融合策略,利用注意力模型生成源图像显著特征的权值图

本文其余部分的结构如下:在第二节中,我们分别简要介绍Res2Net和DenseFuse。在第三节中,我们详细介绍了所提出的方法。第四部分是实验结果,第五部分是本文的结论。

RELATED WORKS

A. Res2Net

多尺度特征在许多图像处理任务中起着重要作用。在PAMI 2020中,Gao等人[11]为CNN提出了一种新的构建模块,称为Res2Net。Res2Net模块如图1所示

在这里插入图片描述
在图1中,经过1×1卷积后,将特征映射平均分割得到特征映射子集,用xi表示,其中i∈{1,2,. ., n}, n表示子集的个数。
除x1外,其余的子集都有对应的卷积,记为Fi()。Fi()的输出用yi来标记。因此,yi可以由式1计算出来。

如公式1所示,当xi经过3×3卷积层时,输出结果(yi)可以有一个比xi更大的接收域。最后,连接所有的拆分,并将它们通过1 × 1的卷积。
因此,Res2Net的思想是在残留块中构建层次结构的类残留连接。Res2Net在粒度级别提取多尺度特征,并增加每个网络层的接收域范围。

<

### DenseFuse 方法的技术细节 DenseFuse 是一种专门针对红外图像和可见光图像融合提出的深度学习框架[^1]。该方法通过构建一个多尺度密集连接网络,实现对两种模态图像的有效融合。 #### 多尺度特征提取 DenseFuse 利用了卷积神经网络(CNN)强大的特征表达能力,采用多尺度结构来捕捉不同层次的空间信息。具体来说,输入的红外图像和可见光图像会经过多个卷积层处理,每一层都会生成一组特征图谱。这些特征图不仅包含了局部纹理信息,还能够反映全局语义特性。 ```python import torch.nn as nn class MultiScaleFeatureExtractor(nn.Module): def __init__(self, num_channels=1): super(MultiScaleFeatureExtractor, self).__init__() self.conv1 = nn.Conv2d(num_channels, 64, kernel_size=3, stride=1, padding=1) # 更多卷积层... def forward(self, x): out = F.relu(self.conv1(x)) # 继续前向传播... return out ``` #### 密集连接的设计理念 不同于传统的 CNN 架构,DenseFuse 引入了密集连接的思想,使得每层都可以直接接收到来自前面所有层的信息传递。这种设计有助于缓解梯度消失问题,并促进更深层次之间的信息交流。此外,它还能增强模型的学习能力和泛化性能。 #### 融合策略的选择 对于最终的图像融合过程,DenseFuse 设计了几种不同的融合策略供选择: - **加法策略**:简单地将两个源图像对应的像素值相加以获得新的强度分布; - **L1-Norm 策略**:计算两幅图片间绝对差值作为权重系数来进行线性组合; 这两种方案各有优劣,在实际应用中可以根据需求灵活选用合适的算法。 #### 训练流程概述 整个训练过程中,DenseFuse 使用 L1 Loss 来衡量重建误差,并借助 Adam Optimizer 进行参数更新。值得注意的是,由于采用了端到端的方式,所以无需额外的手动调整或预设条件即可完成高质量的结果输出。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值