CAVER: Cross-Modal View-Mixed Transformer for Bi-Modal Salient Object Detection

文章介绍了一种新的双模态显著对象检测方法CAVER,利用Transformer和自定义注意力机制解决RGB-D和RGB-T数据集中的问题。文章重点讲解了方法的创新点,包括信息传播路径、注意力机制的优化以及实验结果。代码复现中遇到的问题和解决方案也有所提及。

目录

一、论文阅读笔记:

1、摘要:

2、主要贡献点:

3、方法:

3.1 网络的总体框架图:

3.2 Transformer-based Information Propagation Path (TIPP)

3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)

Q1: MHSA计算复杂度较高

A1:Patch-wise Token Re-Embedding (PTRE)

Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值

A2:View-Mixed Attention (VMA)

 3.4 Inter-Modal Cross-Attention (IMCA)

4、实验:

二、代码复现

1、实验细节:

2、数据集:

3、实验步骤:

3.1 将对应的代码和数据集上传到服务器上

3.2 将根目录下的datasets.py里的路径更改成自己的路径

3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息

3.4 将预训练模型从给出的网址上下载下来,上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)

3.5 安装对应的module

3.6 在两个数据集上的训练结果

三、BUGS

问题1:assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError

问题2: TypeError: FormatCode() got an key word 'verify'

​编辑

​编辑 问题3:RuntimeError: CuDA error: no kernel imade is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrectFor debugging consider passing CUDA LAUNCH BLOCKING=1.

四、提问



发表期刊及年份:TIP 2023

代码网址:https://github.com/lartpang/CAVER

一、论文阅读笔记:

1、摘要:

        大多数现有的双模态(RGB-D 和 RGB-T)显着对象检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模态信息集成。卷积操作的固有局部连通性将基于卷积的方法的性能限制在天花板上。在这项工作中,我们从全局信息对齐和转换的角度重新思考这些任务。具体来说,所提出的跨模态视图混合转换器 (CAVER) 级联了几个跨模态集成单元来构建自上而下的基于转换器的信息传播路径。CAVER 将多尺度和多模态特征集成视为建立在新颖的视图混合注意力机制之上的序列到序列上下文传播和更新过程。此外,考虑到输入令牌数量的二次复杂度w.r.t,我们设计了一种无参数补丁令牌重新嵌入策略来简化操作。RGB-D 和 RGB-T SOD 数据集的广泛实验结果表明,当配备所提出的组件时,这种简单的双流编码器-解码器框架可以超越最近最先进的方法。代码和预训练模型将在链接处可用。

2、主要贡献点:

  1. 我们引入了transformer从序列到序列的角度重新思考双模态SOD建模,从而获得更好的可解释性。
  2. 我们构建了一个自顶向下的基于transformer的信息传播路径,通过视图混合注意块增强,可以对齐RGB和深度/热模态的特征,充分利用空间和通道视图之间的模态间和模态内信息。
  3. 我们通过使用patch-wise令牌重新嵌入来提高注意中的矩阵操作,提高了transformer对多尺度特征和高分辨率特征的效率。在卷积前馈网络的帮助下,可以进一步增强特征的局部性,并且可以充分感知和探索全局和局部上下文中的关键线索。
  4. 大量的实验表明,该模型在7个RGB-D SOD数据集和3个RGB-T SOD数据集上的性能优于最近的方法。

3、方法:

3.1 网络的总体框架图:

   

3.2 Transformer-based Information Propagation Path (TIPP)

        基于transformer的信息传播路径主要是四个CMUI模块之间自上而下地信息交互和传播,前三个CMUI模块(即CMUI1、CMUI2、CMUI3)都是有三个输入(RGB流、depth/thermal流,来自下一个CMUI的输出 {f_{rgb-d/t}^{i+1}}),但是最后一个CMUI4模块只有两个输入(即RGB流、depth/thermal流)

3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)

        IMSA和CSSA两者的结构式相同的,但相较于自注意机制而言两者在FFN(前馈神经网络)和MHSA(多头注意力机制)两部分做出了改进。如下图所示:

其中如上两部分改进的原因:

Q1: MHSA计算复杂度较高

MHSA单头的计算公式:

        Qh、Kh、Vh 分别是单个头部的查询、键和值。Wq , Wk, Wv 是对应的投影矩阵。Z = [Y1,., Yh ]W^{^{o}}W^{^{o}}是一个输出投影层。

        注意矩阵Q_{h}K_{h}^{T}的点积运算具有输入序列长度的二次复杂度w.r.t,即N^2,这限制了它处理多尺度高分辨率特征。

A1:Patch-wise Token Re-Embedding (PTRE)

        与MHSA相比,PTRE被应用于将矩阵运算从像素形式提高到逐块形式,从而将复杂度降低了p^2倍。这里,p^2是Patch-wise中的元素数量。具体做法就是将1D序列折叠成2D的形式,部分和总体图如下面两图:

Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值
A2:View-Mixed Attention (VMA)

        具体做

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一只懒洋洋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值