ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection

1 研究背景

1.1 研究目的

1.以前的研究已经证明了使用卷积神经网络进行特征融合的有效性,但由于局部距离特征交互的固有缺陷导致性能下降,这些方法对图像错位很敏感。

        为了解决这个问题,作者提出了一种新的双交叉注意transformer特征融合框架来建模全局特征交互,同时捕获跨模态的互补信息。该框架通过查询引导的交叉注意力机制增强了对象特征的可辨别性,从而提高了性能。

2. 但是堆叠多个transformer块进行特征增强会产生大量的参数和较高的空间复杂度。

        为了解决这个问题,受人类审查知识的过程的启发,提出了一种迭代交互机制,在块式多模态transformer之间共享参数,降低了模型的复杂性和计算成本。

1.2 热普范围图像介绍

        热谱范围图像提供了一种感知自然场景的特殊方法,被认为可以补充计算机视觉中的可见光谱图像。

        多光谱图像特征表示和融合是一个具有挑战性的问题,服务于各种下游视觉任务,如目标检测、语义分割和目标跟踪。这些方法仍然容易受到环境因素的影响,如恶劣的天气条件和光照变化。

        为了提高目标检测器在全天候条件下的鲁棒性和准确性,基于RGB和热图像的多光谱目标检测已经成为一个可行的解决方案,在最近的学术研究中越来越受欢迎。

1.3 作者做出的贡献

  • 提出了一种新的多光谱目标检测双交叉注意特征融合方法,该方法同时聚合来自RGB和热图像的互补信息。
  • 设计了一种迭代学习策略,用于高效的多光谱特征融合,在不增加可学习参数的情况下进一步提高了模型的性能。
  • 提出的特征融合方法既具有通用性又有效,可以插入到不同的主干中,并配备了不同的检测框架。
  • 提出的CFE/ICFE模块可以用不同的输入图像模态发挥作用,当模态缺失或池质量有时,这提供了可行的解决方案。
  • 该方法可以在KAIST、FLIR和VEDAI数据集上取得最先进的结果,同时也能获得非常快的推理速度。

2 模块框架

2.1 整体结构

图 1 所示,所提出的方法是一个双分支骨干网络,专为从  RGB-热图像 对 中提取特征而量身定制。

图 1 多光谱目标检测框架概述

图1中:

  • 上分支和下分支为RGB图像和热图像的特征提取模块
  • C1∼C5表示不同尺度的特征图尺度
  • DMFF模块是作者提出的特征融合方法
  • Neck模块是多尺度特征聚合网络
  • Head模块输出最终的检测结果。

作者的方法主要包括三个阶段:

  1. 单模态特征提取
  2. 双模态特征融合
  3. 检测颈部和头部

2.1.1 第一阶段

单模态特征提取首先独立用于RGB和热图像,如式1所示:

其中:

  •  F_{R}^{i},F_{T}^{i}\in \mathbb{R}^{W*H*C}分别表示 RGB 和热分支的第 i 层 (i=3, 4, 5) 的特征图
  • H、W 和 C 表示特征图的高度、宽度和通道数
  • I_{R},I_{T}\in \mathbb{R}^{W*H*C}表示输入 RGB 和热图像
  • \Psi _{backbone}分别表示 RGB 和热分支的参数为 \theta _{R} 和 \theta _{T}的特征提取函数

        在通用目标检测中,VGG16、ResNet和CSPDarkNet通常用作函数\Psi _{backbone}。在特征提取阶段,多尺度特征通常用于捕获不同大小的对象。

2.1.2 第二阶段

        给定 F_{R}^{i},F_{T}^{i}的特征图,需要跨模态特征融合来聚合多光谱目标检测中不同分支的特征,这可以在方程式2中定义:

其中:

  • F_{R+T}^{i}\in \mathbb{R}^{W*H*C} 表示第 i 层融合特征
  • \Phi _{fusion}\left ( \cdot \right )表示参数为 \theta _{f}的特征融合函数

        鉴于以往的研究探索了不同的融合架构,并验证了半向融合优于其他融合方法,作者使用半向融合作为默认设置,融合卷积层C3 ~ C5的多模态特征,如图1所示。

        一般情况下,加法运算或NIN融合常被用作特征融合函数\Phi _{fusion}\left ( \cdot \right )。在本文中,提出了一种双交叉注意力特征融合transformer来模拟 \Phi _{fusion}\left ( \cdot \right )。                                    \Phi _{fusion}\left ( \cdot \right )= conv_{1*1}\left ( \left [ F_{R},F_{T} \right ] \right )

 其中 conv1×1 是一个 1×1 卷积,[·] 表示连接操作。

2.1.3 第三阶段

        将\left \{ F_{R+T}^{i}\right \}_{i=1}^{L}的特征映射输入到检测器颈部进行多尺度特征融合,然后传递到检测器头部进行后续的分类和回归,如式3所示。

其中:

  • \phi _{neck} 和 \phi _{head}表示多尺度特征聚合和检测头函数
  • FPN 和 PANet通常用作函数 \phi _{neck}以增强特征的语义表达和定位能力
  • \phi _{head} 充当参数为\theta _{h}的分类和边界框回归的作用,例如 YOLO 和 FCOS 的检测头

为了公平比较,作者在

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值