【红外与可见光图像融合】Semantic perceptive infrared and visible image fusion Transformer

最新推荐文章于 2024-06-25 22:13:30 发布

原创

最新推荐文章于 2024-06-25 22:13:30 发布 · 1.9k 阅读

·

29

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

大多数方法关注到了全局信息建模和局部特征，但很少考虑到语义信息的建模，这可能导致信息保持不充分。
我们提出的SePT使用CNN提取局部特征，并通过Transformer学习长距离依赖，同时，设计了两个语义信息建模模块，学习高级语义信息。结果表明，所提出的两个语义建模模块分别将浅层特征映射为深层语义，并从不同的感受野中提取语义信息。
本文在一个新的RGB数据集M3FD上做了扩展实验，除了对比CNN，GAN-based的方法外，还对比了两个Transformer-based的方法和一个同样考虑到语义信息建模的方法SeAFusion。
本文选择的客观指标也没有选择几个特别常见的，同时对提出的几个模块做消融实验时，由于指标没有提升多少甚至有降低，所以没有加黑，但主观图是有提升的。
代码未公开。
选自Pattern Recognition。

1、Motivation

(1)基于CNN和GAN的方法具有较强的局部特征表示能力，但远程依赖学习能力较弱。这可能导致对融合图像至关重要的全局纹理的缺失。
(2)这些方法很少考虑深层语义信息，这可能导致融合过程中源图像信息保留不足。

作者说，一些图像融合研究将图像语义引入融合框架。

他们设计了一个信息量判别块来确定保留语义对象特征的权重，从而可以在特定的监督损失下很好地训练鉴别器和生成器。

但这些方法侧重于利用语义信息形成语义相关损失来指导融合过程，而很少考虑对其进行建模或其他操作。

2、网络结构

在这里插入图片描述
网络包括四个部分，局部特征提取模块，长距离建模模块，深度语义信息建模模块，宽度语义建模模块。

在特征提取方面，IR和VIS是两个分支，分别提取不同模态的特征，作者也解释说

为了从两幅不同模态的源图像中充分提取信息，将两幅源图像作为两个独立的输入发送到网络中。

局部特征提取部分：

就是5个conv层，作者分开命名为，浅层特征提取，中层特征提取，深层特征提取。
在这里插入图片描述

长距离学习部分：

在这里插入图片描述
就是最基本的transformer块，考虑到计算效率。Transformer Encoder的层数设置为6。多头设置为4.

深度语义建模模块：

在这里插入图片描述
经过局部提取部分，提取到的浅层特征主要是颜色和边缘信息，因此我们设计深度语义建模模块为了提取高级语义特征

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。