ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection

CV-Climber

已于 2024-10-07 19:52:10 修改

阅读量2.1k

点赞数 5

分类专栏： Text-to-image Generate 文章标签：目标检测人工智能计算机视觉

于 2024-10-07 19:44:17 首次发布

本文链接：https://blog.youkuaiyun.com/qq_41833478/article/details/142696503

版权

1 研究背景

1.1 研究目的

1.以前的研究已经证明了使用卷积神经网络进行特征融合的有效性，但由于局部距离特征交互的固有缺陷导致性能下降，这些方法对图像错位很敏感。

为了解决这个问题，作者提出了一种新的双交叉注意transformer特征融合框架来建模全局特征交互，同时捕获跨模态的互补信息。该框架通过查询引导的交叉注意力机制增强了对象特征的可辨别性，从而提高了性能。

2. 但是堆叠多个transformer块进行特征增强会产生大量的参数和较高的空间复杂度。

为了解决这个问题，受人类审查知识的过程的启发，提出了一种迭代交互机制，在块式多模态transformer之间共享参数，降低了模型的复杂性和计算成本。

1.2 热普范围图像介绍

热谱范围图像提供了一种感知自然场景的特殊方法，被认为可以补充计算机视觉中的可见光谱图像。

多光谱图像特征表示和融合是一个具有挑战性的问题，服务于各种下游视觉任务，如目标检测、语义分割和目标跟踪。这些方法仍然容易受到环境因素的影响，如恶劣的天气条件和光照变化。

为了提高目标检测器在全天候条件下的鲁棒性和准确性，基于RGB和热图像的多光谱目标检测已经成为一个可行的解决方案，在最近的学术研究中越来越受欢迎。

1.3 作者做出的贡献

提出了一种新的多光谱目标检测双交叉注意特征融合方法，该方法同时聚合来自RGB和热图像的互补信息。
设计了一种迭代学习策略，用于高效的多光谱特征融合，在不增加可学习参数的情况下进一步提高了模型的性能。
提出的特征融合方法既具有通用性又有效，可以插入到不同的主干中，并配备了不同的检测框架。
提出的CFE/ICFE模块可以用不同的输入图像模态发挥作用，当模态缺失或池质量有时，这提供了可行的解决方案。
该方法可以在KAIST、FLIR和VEDAI数据集上取得最先进的结果，同时也能获得非常快的推理速度。

2 模块框架

2.1 整体结构

如图 1 所示，所提出的方法是一个双分支骨干网络，专为从 RGB-热图像对中提取特征而量身定制。

图 1 多光谱目标检测框架概述

图1中：

上分支和下分支为RGB图像和热图像的特征提取模块
C1∼C5表示不同尺度的特征图尺度
DMFF模块是作者提出的特征融合方法
Neck模块是多尺度特征聚合网络
Head模块输出最终的检测结果。

作者的方法主要包括三个阶段：

单模态特征提取

双模态特征融合

检测颈部和头部

2.1.1 第一阶段

单模态特征提取首先独立用于RGB和热图像，如式1所示：

其中：

$F_{R}^{i},F_{T}^{i}\in \mathbb{R}^{W*H*C}$ 分别表示 RGB 和热分支的第 i 层 (i=3, 4, 5) 的特征图
H、W 和 C 表示特征图的高度、宽度和通道数
$I_{R},I_{T}\in \mathbb{R}^{W*H*C}$ 表示输入 RGB 和热图像
$\Psi _{backbone}$ 分别表示 RGB 和热分支的参数为 $\theta _{R}$ 和 $\theta _{T}$ 的特征提取函数

在通用目标检测中，VGG16、ResNet和CSPDarkNet通常用作函数 $\Psi _{backbone}$ 。在特征提取阶段，多尺度特征通常用于捕获不同大小的对象。

2.1.2 第二阶段

给定 $F_{R}^{i},F_{T}^{i}$ 的特征图，需要跨模态特征融合来聚合多光谱目标检测中不同分支的特征，这可以在方程式2中定义：

其中:

$F_{R+T}^{i}\in \mathbb{R}^{W*H*C}$ 表示第 i 层融合特征
$\Phi _{fusion}\left ( \cdot \right )$ 表示参数为 $\theta _{f}$ 的特征融合函数

鉴于以往的研究探索了不同的融合架构，并验证了半向融合优于其他融合方法，作者使用半向融合作为默认设置，融合卷积层C3 ~ C5的多模态特征，如图1所示。

一般情况下，加法运算或NIN融合常被用作特征融合函数 $\Phi _{fusion}\left ( \cdot \right )$ 。在本文中，提出了一种双交叉注意力特征融合transformer来模拟 $\Phi _{fusion}\left ( \cdot \right )$ 。 $\Phi _{fusion}\left ( \cdot \right )= conv_{1*1}\left ( \left [ F_{R},F_{T} \right ] \right )$