【红外与可见光图像融合】Semantic perceptive infrared and visible image fusion Transformer

大多数方法关注到了全局信息建模和局部特征,但很少考虑到语义信息的建模,这可能导致信息保持不充分。
我们提出的SePT使用CNN提取局部特征,并通过Transformer学习长距离依赖,同时,设计了两个语义信息建模模块,学习高级语义信息。结果表明,所提出的两个语义建模模块分别将浅层特征映射为深层语义,并从不同的感受野中提取语义信息。
本文在一个新的RGB数据集M3FD上做了扩展实验,除了对比CNN,GAN-based的方法外,还对比了两个Transformer-based的方法和一个同样考虑到语义信息建模的方法SeAFusion。
本文选择的客观指标也没有选择几个特别常见的,同时对提出的几个模块做消融实验时,由于指标没有提升多少甚至有降低,所以没有加黑,但主观图是有提升的。
代码未公开。
选自Pattern Recognition。

1、Motivation

(1)基于CNN和GAN的方法具有较强的局部特征表示能力,但远程依赖学习能力较弱。这可能导致对融合图像至关重要的全局纹理的缺失。
(2)这些方法很少考虑深层语义信息,这可能导致融合过程中源图像信息保留不足。

作者说,一些图像融合研究将图像语义引入融合框架。

他们设计了一个信息量判别块来确定保留语义对象特征的权重,从而可以在特定的监督损失下很好地训练鉴别器和生成器。

但这些方法侧重于利用语义信息形成语义相关损失来指导融合过程,而很少考虑对其进行建模或其他操作。

2、网络结构

在这里插入图片描述
网络包括四个部分,局部特征提取模块,长距离建模模块,深度语义信息建模模块,宽度语义建模模块。

在特征提取 方面,IR和VIS是两个分支,分别提取不同模态的特征,作者也解释说

为了从两幅不同模态的源图像中充分提取信息,将两幅源图像作为两个独立的输入发送到网络中。

局部特征提取部分:

就是5个conv层,作者分开命名为,浅层特征提取,中层特征提取,深层特征提取。
在这里插入图片描述

长距离学习部分:

在这里插入图片描述
就是最基本的transformer块,考虑到计算效率。Transformer Encoder的层数设置为6。多头设置为4.

深度语义建模模块:

在这里插入图片描述
经过局部提取部分,提取到的浅层特征主要是颜色和边缘信息,因此我们设计深度语义建模模块为了提取高级语义特征

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值