【红外与可见光图像融合】Semantic perceptive infrared and visible image fusion Transformer

大多数方法关注到了全局信息建模和局部特征,但很少考虑到语义信息的建模,这可能导致信息保持不充分。
我们提出的SePT使用CNN提取局部特征,并通过Transformer学习长距离依赖,同时,设计了两个语义信息建模模块,学习高级语义信息。结果表明,所提出的两个语义建模模块分别将浅层特征映射为深层语义,并从不同的感受野中提取语义信息。
本文在一个新的RGB数据集M3FD上做了扩展实验,除了对比CNN,GAN-based的方法外,还对比了两个Transformer-based的方法和一个同样考虑到语义信息建模的方法SeAFusion。
本文选择的客观指标也没有选择几个特别常见的,同时对提出的几个模块做消融实验时,由于指标没有提升多少甚至有降低,所以没有加黑,但主观图是有提升的。
代码未公开。
选自Pattern Recognition。

1、Motivation

(1)基于CNN和GAN的方法具有较强的局部特征表示能力,但远程依赖学习能力较弱。这可能导致对融合图像至关重要的全局纹理的缺失。
(2)这些方法很少考虑深层语义信息,这可能导致融合过程中源图像信息保留不足。

作者说,一些图像融合研究将图像语义引入融合框架。

他们设计了一个信息量判别块来确定保留语义对象特征的权重,从而可以在特定的监督损失下很好地训练鉴别器和生成器。

但这些方法侧重于利用语义信息形成语义相关损失来指导融合过程,而很少考虑对其进行建模或其他操作。

2、网络结构

在这里插入图片描述
网络包括四个部分,局部特征提取模块,长距离建模模块,深度语义信息建模模块,宽度语义建模模块。

在特征提取 方面,IR和VIS是两个分支,分别提取不同模态的特征,作者也解释说

为了从两幅不同模态的源图像中充分提取信息,将两幅源图像作为两个独立的输入发送到网络中。

局部特征提取部分:

就是5个conv层,作者分开命名为,浅层特征提取,中层特征提取,深层特征提取。
在这里插入图片描述

长距离学习部分:

在这里插入图片描述
就是最基本的transformer块,考虑到计算效率。Transformer Encoder的层数设置为6。多头设置为4.

深度语义建模模块:

在这里插入图片描述
经过局部提取部分,提取到的浅层特征主要是颜色和边缘信息,因此我们设计深度语义建模模块为了提取高级语义特征

### 实现语义驱动的红外可见光图像融合 为了实现完全语义驱动的红外可见光图像融合,可以采用基于深度学习的方法。具体来说,构建一个具有可学习参数 θ 的融合网络 \(N_F\) ,该网络能够处理输入的红外图像 \(I_{ir}\) 和可见光图像 \(I_{vis}\),并生成高质量的融合图像。 #### 构建融合模型架构 ```python import torch import torch.nn as nn import torchvision.models as models class FusionNetwork(nn.Module): def __init__(self): super(FusionNetwork, self).__init__() # 使用预训练的ResNet作为特征提取器 resnet = models.resnet50(pretrained=True) modules = list(resnet.children())[:-2] # 去掉最后两层 self.feature_extractor = nn.Sequential(*modules) # 定义上采样模块用于重建高分辨率图像 self.decoder = nn.ConvTranspose2d(2048, 3, kernel_size=4, stride=2, padding=1) def forward(self, ir_image, vis_image): # 提取双模态特征向量 features_ir = self.feature_extractor(ir_image) features_vis = self.feature_extractor(vis_image) # 融合两个模态的信息 fused_features = (features_ir + features_vis) / 2 # 上采样恢复原始尺寸 output = self.decoder(fused_features) return output ``` 此代码片段定义了一个简单的端到端神经网络框架来执行图像融合任务[^2]。通过共享权重的方式利用卷积神经网络(CNNs)强大的表征能力捕捉不同模态间的共同特性;同时引入解码器部分完成从低维空间映射回原图的过程。 需要注意的是,在实际应用中可能还需要加入更多细节优化,比如正则化项控制过拟合现象、损失函数设计促进更好的视觉效果等。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值