【多模态】
[2024] SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection
论文链接:https://arxiv.org/pdf/2410.11358
代码链接:无
多模态目标检测利用多样化的模态信息来提高检测器的准确性和鲁棒性。通过学习长期依赖关系,Transformer可以有效地在特征提取阶段整合多模态特征,从而显著提高多模态目标检测的性能。然而,当前的方法只是简单地堆叠基于Transformer的融合技术,而没有探索其在网络不同深度层提取特征的能力,因此限制了检测性能的提升
。本文介绍了一种精确且高效的目标检测方法,名为SeaDATE。首先,作者提出了一种新型的双重注意力特征融合(DTF)模块,该模块在Transformer的指导下,通过双重注意力机制整合局部和全局信息,利用空间和通道token从正交角度加强模态特征的融合。同时,理论分析和实证验证表明,Transformer引导的融合方法,将图像视为像素序列进行融合,在浅层特征的细节信息上表现优于深层语义信息。为此,作者设计了一个对比学习(CL)模块,旨在学习多模态样本的特征,弥补Transformer引导融合在提取深层语义特征方面的不足,并有所提方法的有效性,达到了最先进的检测性能。