【多模态】
[2024] SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection
论文链接:https://arxiv.org/pdf/2410.11358
代码链接:无
多模态目标检测利用多样化的模态信息来提高检测器的准确性和鲁棒性。通过学习长期依赖关系,Transformer可以有效地在特征提取阶段整合多模态特征,从而显著提高多模态目标检测的性能。然而,当前的方法只是简单地堆叠基于Transformer的融合技术,而没有探索其在网络不同深度层提取特征的能力,因此限制了检测性能的提升
。本文介绍了一种精确且高效的目标检测方法,名为SeaDATE。首先,作者提出了一种新型的双重注意力特征融合(DTF)模块,该模块在Transformer的指导下,通过双重注意力机制整合局部和全局信息,利用空间和通道token从正交角度加强模态特征的融合。同时,理论分析和实证验证表明,Transformer引导的融合方法,将图像视为像素序列进行融合,在浅层特征的细节信息上表现优于深层语义信息。为此,作者设计了一个对比学习(CL)模块,旨在学习多模态样本的特征,弥补Transformer引导融合在提取深层语义特征方面的不足,并有所提方法的有效性,达到了最先进的检测性能。
实验结果
[2024] MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation
论文链接:https://arxiv.org/pdf/2410.11160
代码链接:https://github.com/sstary/SSRS
多模态遥感数据通过各种传感器收集,提供了对地球表面的全面综合视角。通过采用多模态融合技术,语义分割相比单一模态方法能提供更详细的地理场景洞察。基于视觉基础模型的最新进展,尤其是Segment Anything Model(SAM),本研究介绍了一种用于多模态遥感语义分割的新型多模态适配器网络(MANet)。该方法的核心是开发了一种多模态适配器(MMAdapter),它微调了SAM的图像编码器,以有效利用该模型在多模态数据上的通用知识。此外,还引入了一个基于金字塔的深度融合模块(DFM),以在解码前进一步整合多个尺度的高级地理特征。这项工作不仅介绍了一个用于多模态融合的新型网络,而且首次证明了SAM在使用数字表面模型(DSM)数据时的强大泛化能力。在两个成熟的高分辨率多模态遥感数据集ISPRS Vaihingen和ISPRS Potsdam上的实验结果表明,所提出的MANet在多模态语义分割任务中显著优于当前模型。
实验结果
【视频分割】
[2024] SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
论文链接:https://arxiv.org/pdf/2410.16268
代码链接:https://github.com/Mark12Ding/SAM2Long
Segment Anything Model 2 (SAM 2) 已经成为图像和视频中对象分割的一个强大基础模型,为各种下游视频应用铺平了道路。SAM 2在视频分割中的关键在于其记忆模块,该模块从先前帧中提取对象感知的记忆,用于当前帧的预测。然而,其贪婪选择记忆设计存在“误差累积”问题,即错误或遗漏的掩码会级联并影响后续帧的分割,从而限制了SAM 2在复杂长期视频上的表现
。为此,作者引入了SAM2Long,一种改进的无需训练的视频对象分割策略,它考虑每个帧内的分割不确定性,并通过受限树搜索方式从多个分割路径中选择最优结果。在实践中,在整个视频过程中保持固定数量的分割路径。对于每一帧,基于现有路径提出多个掩码,创建多种候选分支。然后,选择累计分数较高的相同固定数量的分支作为下一帧的新路径。处理完最后一帧后,选择累计分数最高的路径作为最终分割结果。得益于启发式搜索设计,SAM2Long对遮挡和对象重现具有鲁棒性,并能有效地分割和跟踪复杂长期视频中的对象。在不引入任何额外参数或进一步训练的情况下,SAM2Long在五个VOS基准测试中均显著且一致地优于SAM 2。值得注意的是,在所有24个面对面比较中,SAM2Long平均提高了3.0个百分点,在诸如SA-V和LVOS等长期视频对象分割基准测试中,J&F指标的提升高达5.3个百分点。
实验结果