1 研究背景
1.1 研究目的
1.以前的研究已经证明了使用卷积神经网络进行特征融合的有效性,但由于局部距离特征交互的固有缺陷导致性能下降,这些方法对图像错位很敏感。
为了解决这个问题,作者提出了一种新的双交叉注意transformer特征融合框架来建模全局特征交互,同时捕获跨模态的互补信息。该框架通过查询引导的交叉注意力机制增强了对象特征的可辨别性,从而提高了性能。
2. 但是堆叠多个transformer块进行特征增强会产生大量的参数和较高的空间复杂度。
为了解决这个问题,受人类审查知识的过程的启发,提出了一种迭代交互机制,在块式多模态transformer之间共享参数,降低了模型的复杂性和计算成本。
1.2 热普范围图像介绍
热谱范围图像提供了一种感知自然场景的特殊方法,被认为可以补充计算机视觉中的可见光谱图像。
多光谱图像特征表示和融合是一个具有挑战性的问题,服务于各种下游视觉任务,如目标检测、语义分割和目标跟踪。这些方法仍然容易受到环境因素的影响,如恶劣的天气条件和光照变化。
为了提高目标检测器在全天候条件下的鲁棒性和准确性,基于RGB和热图像的多光谱目标检测已经成为一个可行的解决方案,在最近的学术研究中越来越受欢迎。
1.3 作者做出的贡献
- 提出了一种新的多光谱目标检测双交叉注意特征融合方法,该方法同时聚合来自RGB和热图像的互补信息。
- 设计了一种迭代学习策略,用于高效的多光谱特征融合,在不增加可学习参数的情况下进一步提高了模型的性能。
- 提出的特征融合方法既具有通用性又有效,可以插入到不同的主干中,并配备了不同的检测框架。
- 提出的CFE/ICFE模块可以用不同的输入图像模态发挥作用,当模态缺失或池质量有时,这提供了可行的解决方案。
- 该方法可以在KAIST、FLIR和VEDAI数据集上取得最先进的结果,同时也能获得非常快的推理速度。
2 模块框架
2.1 整体结构
如图 1 所示,所提出的方法是一个双分支骨干网络,专为从 RGB-热图像 对 中提取特征而量身定制。
图 1 多光谱目标检测框架概述
图1中:
- 上分支和下分支为RGB图像和热图像的特征提取模块
- C1∼C5表示不同尺度的特征图尺度
- DMFF模块是作者提出的特征融合方法
- Neck模块是多尺度特征聚合网络
- Head模块输出最终的检测结果。
作者的方法主要包括三个阶段:
- 单模态特征提取
- 双模态特征融合
- 检测颈部和头部
2.1.1 第一阶段
单模态特征提取首先独立用于RGB和热图像,如式1所示:
其中:
-
分别表示 RGB 和热分支的第 i 层 (i=3, 4, 5) 的特征图
- H、W 和 C 表示特征图的高度、宽度和通道数
表示输入 RGB 和热图像
分别表示 RGB 和热分支的参数为
和
的特征提取函数
在通用目标检测中,VGG16、ResNet和CSPDarkNet通常用作函数。在特征提取阶段,多尺度特征通常用于捕获不同大小的对象。
2.1.2 第二阶段
给定 的特征图,需要跨模态特征融合来聚合多光谱目标检测中不同分支的特征,这可以在方程式2中定义:
其中:
表示第 i 层融合特征
表示参数为
的特征融合函数
鉴于以往的研究探索了不同的融合架构,并验证了半向融合优于其他融合方法,作者使用半向融合作为默认设置,融合卷积层C3 ~ C5的多模态特征,如图1所示。
一般情况下,加法运算或NIN融合常被用作特征融合函数。在本文中,提出了一种双交叉注意力特征融合transformer来模拟
。
其中 conv1×1 是一个 1×1 卷积,[·] 表示连接操作。
2.1.3 第三阶段
将的特征映射输入到检测器颈部进行多尺度特征融合,然后传递到检测器头部进行后续的分类和回归,如式3所示。
其中:
和
表示多尺度特征聚合和检测头函数
- FPN 和 PANet通常用作函数
以增强特征的语义表达和定位能力
充当参数为
的分类和边界框回归的作用,例如 YOLO 和 FCOS 的检测头
为了公平比较,作者在