本文指出,多图像融合任务的结果应尽量包含更多的互补信息和更少的冗余信息,互补信息很难提取,VIS和IR图像存在较大的差距,尤其更难提取。
常见的交叉注意力仅仅考虑相关性,图像融合任务需要关注互补信息(不相关性)–这一点【】也提到了,也是那篇文章的出发点。但是这两篇文章对于不相关信息的提取有区别。
因此,我们提出了cross attention mechanism (CAM),增强互补信息。
两阶段训练策略,auto-encoder,然后固定住encoder,再训练CAM和decoder。
设计了新的损失函数,RGB可见光做了实验,选取的主流客观指标,达到了SOTA。
选自Information fusion,代码即将公开。
1、Motivation
- 之前的方法主要集中在自我注意力机制上,而忽略了各种模式之间的相互作用。然而,不同模态之间的互补信息是多模态融合任务的关键,因此交叉注意力应得到更多的重视。
- TR要么只在特征提取阶段使用,要么只在重建阶段使用。即使在融合阶段使用了TR,没有解决关键问题,即self-attention可能降低互补信息的问题。
- 也有一些文章把cross-attention和transformer结合,但他们还是仅仅只关注到了相关性,忽视了互补信息。
基于transformer的方法只聚焦自注意力机制,这是transformer的主要组成部分。这种机制虽然可以提高输入之间的相关性,但也可能减少互补信息。
作者说,在特定情况下,错误地处理特征相关性可能导致融合性能下降,因此我们提出CAM,
CAM employs self-attention to enhance the intra-features of each modality while utilizes cross-attention based architecture to enhance the inter-features (complementary information) between different modalities.
intra-features 和 inter-features这两个表达应该是学习的SwinFusion里的表达,就是通过self-attention增强单模态内部的相关性,通过cross-attention增强多模态之间的互补信息融合,减少冗余信息。
2、网络结构
2.1 encoder结构
本文使用的是两阶段训练策略,作者说,考虑到两种模态(红外和可见光)之间的差距,提取不同参数的特征是很自然的。
用于VIS和IR的encoder具有相同的结构但具有不同的参数,就是分两个之路分别提取特征。
作者说,为了增强细节信息和显著性特征,使用了两个跳跃连接到decoder。