
多模态目标检测论文
文章平均质量分 95
一只懒洋洋
这个作者很懒,什么都没留下…
展开
-
SwinNet: Swin Transformer Drives Edge-Aware RGB-D and RGB-T Salient Object Detection
卷积神经网络 (CNN) 擅长提取某些感受野内的上下文特征,而Transformers可以对全局远程依赖特征进行建模。通过吸收变压器的优势和CNN的优点,Swin Transformer具有较强的特征表示能力。在此基础上,我们提出了一种用于 RGB-D 和 RGB-T 显着目标检测的跨模态融合模型 SwinNet。由 Swin Transformer 驱动以提取分层特征,通过注意力机制增强来弥合两种模态之间的差距,并以边缘信息引导以锐化显着对象的轮廓。原创 2024-01-10 20:45:24 · 2100 阅读 · 0 评论 -
CAVER: Cross-Modal View-Mixed Transformer for Bi-Modal Salient Object Detection
大多数现有的双模态(RGB-D 和 RGB-T)显着对象检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模态信息集成。卷积操作的固有局部连通性将基于卷积的方法的性能限制在天花板上。在这项工作中,我们从全局信息对齐和转换的角度重新思考这些任务。具体来说,所提出的跨模态视图混合转换器 (CAVER) 级联了几个跨模态集成单元来构建自上而下的基于转换器的信息传播路径。CAVER 将多尺度和多模态特征集成视为建立在新颖的视图混合注意力机制之上的序列到序列上下文传播和更新过程。原创 2023-12-28 12:08:22 · 777 阅读 · 0 评论