目录
3.2 Transformer-based Information Propagation Path (TIPP)
3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)
A1:Patch-wise Token Re-Embedding (PTRE)
Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值
3.4 Inter-Modal Cross-Attention (IMCA)
3.2 将根目录下的datasets.py里的路径更改成自己的路径
3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息
3.4 将预训练模型从给出的网址上下载下来,上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)
问题1:assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError
问题2: TypeError: FormatCode() got an key word 'verify'
发表期刊及年份:TIP 2023
代码网址:https://github.com/lartpang/CAVER
一、论文阅读笔记:
1、摘要:
大多数现有的双模态(RGB-D 和 RGB-T)显着对象检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模态信息集成。卷积操作的固有局部连通性将基于卷积的方法的性能限制在天花板上。在这项工作中,我们从全局信息对齐和转换的角度重新思考这些任务。具体来说,所提出的跨模态视图混合转换器 (CAVER) 级联了几个跨模态集成单元来构建自上而下的基于转换器的信息传播路径。CAVER 将多尺度和多模态特征集成视为建立在新颖的视图混合注意力机制之上的序列到序列上下文传播和更新过程。此外,考虑到输入令牌数量的二次复杂度w.r.t,我们设计了一种无参数补丁令牌重新嵌入策略来简化操作。RGB-D 和 RGB-T SOD 数据集的广泛实验结果表明,当配备所提出的组件时,这种简单的双流编码器-解码器框架可以超越最近最先进的方法。代码和预训练模型将在链接处可用。
2、主要贡献点:
- 我们引入了transformer从序列到序列的角度重新思考双模态SOD建模,从而获得更好的可解释性。
- 我们构建了一个自顶向下的基于transformer的信息传播路径,通过视图混合注意块增强,可以对齐RGB和深度/热模态的特征,充分利用空间和通道视图之间的模态间和模态内信息。
- 我们通过使用patch-wise令牌重新嵌入来提高注意中的矩阵操作,提高了transformer对多尺度特征和高分辨率特征的效率。在卷积前馈网络的帮助下,可以进一步增强特征的局部性,并且可以充分感知和探索全局和局部上下文中的关键线索。
- 大量的实验表明,该模型在7个RGB-D SOD数据集和3个RGB-T SOD数据集上的性能优于最近的方法。
3、方法:
3.1 网络的总体框架图:

3.2 Transformer-based Information Propagation Path (TIPP)
基于transformer的信息传播路径主要是四个CMUI模块之间自上而下地信息交互和传播,前三个CMUI模块(即CMUI1、CMUI2、CMUI3)都是有三个输入(RGB流、depth/thermal流,来自下一个CMUI的输出 ),但是最后一个CMUI4模块只有两个输入(即RGB流、depth/thermal流)
3.3 Intra-Modal/Cross-Scale Self-Attention (IMSA/CSSA)
IMSA和CSSA两者的结构式相同的,但相较于自注意机制而言两者在FFN(前馈神经网络)和MHSA(多头注意力机制)两部分做出了改进。如下图所示:

其中如上两部分改进的原因:
Q1: MHSA计算复杂度较高
MHSA单头的计算公式:

Qh、Kh、Vh 分别是单个头部的查询、键和值。Wq , Wk, Wv 是对应的投影矩阵。Z = [Y1,., Yh ] ,
是一个输出投影层。
注意矩阵的点积运算具有输入序列长度的二次复杂度w.r.t,即N^2,这限制了它处理多尺度高分辨率特征。
A1:Patch-wise Token Re-Embedding (PTRE)
与MHSA相比,PTRE被应用于将矩阵运算从像素形式提高到逐块形式,从而将复杂度降低了p^2倍。这里,p^2是Patch-wise中的元素数量。具体做法就是将1D序列折叠成2D的形式,部分和总体图如下面两图:


Q2:目前的MHSA只考虑空间视图上的特征对齐,而忽略了通道视图的潜在值
A2:View-Mixed Attention (VMA)
具体做

文章介绍了一种新的双模态显著对象检测方法CAVER,利用Transformer和自定义注意力机制解决RGB-D和RGB-T数据集中的问题。文章重点讲解了方法的创新点,包括信息传播路径、注意力机制的优化以及实验结果。代码复现中遇到的问题和解决方案也有所提及。
最低0.47元/天 解锁文章
343

被折叠的 条评论
为什么被折叠?



