【红外可见光融合】CrossFuse: A novel cross attention mechanism based infrared andvisibleimage fusion approach-优快云博客

本文链接：https://blog.youkuaiyun.com/learnererer/article/details/136583448

本文指出，多图像融合任务的结果应尽量包含更多的互补信息和更少的冗余信息，互补信息很难提取，VIS和IR图像存在较大的差距，尤其更难提取。
常见的交叉注意力仅仅考虑相关性，图像融合任务需要关注互补信息(不相关性)–这一点【】也提到了，也是那篇文章的出发点。但是这两篇文章对于不相关信息的提取有区别。
因此，我们提出了cross attention mechanism (CAM)，增强互补信息。
两阶段训练策略，auto-encoder，然后固定住encoder，再训练CAM和decoder。
设计了新的损失函数，RGB可见光做了实验，选取的主流客观指标，达到了SOTA。
选自Information fusion，代码即将公开。

1、Motivation

之前的方法主要集中在自我注意力机制上，而忽略了各种模式之间的相互作用。然而，不同模态之间的互补信息是多模态融合任务的关键，因此交叉注意力应得到更多的重视。
TR要么只在特征提取阶段使用，要么只在重建阶段使用。即使在融合阶段使用了TR，没有解决关键问题，即self-attention可能降低互补信息的问题。
也有一些文章把cross-attention和transformer结合，但他们还是仅仅只关注到了相关性，忽视了互补信息。

在这里插入图片描述

基于transformer的方法只聚焦自注意力机制，这是transformer的主要组成部分。这种机制虽然可以提高输入之间的相关性，但也可能减少互补信息。

作者说，在特定情况下，错误地处理特征相关性可能导致融合性能下降，因此我们提出CAM，

CAM employs self-attention to enhance the intra-features of each modality while utilizes cross-attention based architecture to enhance the inter-features (complementary information) between different modalities.

intra-features 和 inter-features这两个表达应该是学习的SwinFusion里的表达，就是通过self-attention增强单模态内部的相关性，通过cross-attention增强多模态之间的互补信息融合，减少冗余信息。