CAVER: Cross-Modal View-Mixed Transformer for Bi-Modal Salient Object Detection

原创

已于 2023-12-29 09:30:36 修改 · 961 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #目标检测 #深度学习

于 2023-12-28 12:08:22 首次发布

文章介绍了一种新的双模态显著对象检测方法CAVER，利用Transformer和自定义注意力机制解决RGB-D和RGB-T数据集中的问题。文章重点讲解了方法的创新点，包括信息传播路径、注意力机制的优化以及实验结果。代码复现中遇到的问题和解决方案也有所提及。

目录

一、论文阅读笔记：

2、主要贡献点：

3.1 网络的总体框架图：

3.2 Transformer-based Information Propagation Path (TIPP)

Q1: MHSA计算复杂度较高

A1:Patch-wise Token Re-Embedding (PTRE)

Q2:目前的MHSA只考虑空间视图上的特征对齐，而忽略了通道视图的潜在值

A2:View-Mixed Attention (VMA)

二、代码复现

1、实验细节：

2、数据集：

3、实验步骤：

3.1 将对应的代码和数据集上传到服务器上

3.2 将根目录下的datasets.py里的路径更改成自己的路径

3.3 更改对应的./configs/rgbd-2dataset.py中的路径信息

3.4 将预训练模型从给出的网址上下载下来，上传到对应文件夹 (/root/autodl-tmp/CAVER/pretrained)

3.5 安装对应的module

3.6 在两个数据集上的训练结果

问题1：assert path.endswith(".jpg") or path.endswith(".png") or path,endswith(".bmp") AssertionError

问题2： TypeError: FormatCode() got an key word 'verify'

编辑问题3：RuntimeError: CuDA error: no kernel imade is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrectFor debugging consider passing CUDA LAUNCH BLOCKING=1.

发表期刊及年份：TIP 2023

代码网址：https://github.com/lartpang/CAVER

一、论文阅读笔记：

1、摘要：

大多数现有的双模态（RGB-D 和 RGB-T）显着对象检测方法利用卷积操作并构建复杂的交织融合结构来实现跨模态信息集成。卷积操作的固有局部连通性将基于卷积的方法的性能限制在天花板上。在这项工作中，我们从全局信息对齐和转换的角度重新思考这些任务。具体来说，所提出的跨模态视图混合转换器 (CAVER) 级联了几个跨模态集成单元来构建自上而下的基于转换器的信息传播路径。CAVER 将多尺度和多模态特征集成视为建立在新颖的视图混合注意力机制之上的序列到序列上下文传播和更新过程。此外，考虑到输入令牌数量的二次复杂度w.r.t，我们设计了一种无参数补丁令牌重新嵌入策略来简化操作。RGB-D 和 RGB-T SOD 数据集的广泛实验结果表明，当配备所提出的组件时，这种简单的双流编码器-解码器框架可以超越最近最先进的方法。代码和预训练模型将在链接处可用。

2、主要贡献点：

我们引入了transformer从序列到序列的角度重新思考双模态SOD建模，从而获得更好的可解释性。
我们构建了一个自顶向下的基于transformer的信息传播路径，通过视图混合注意块增强，可以对齐RGB和深度/热模态的特征，充分利用空间和通道视图之间的模态间和模态内信息。
我们通过使用patch-wise令牌重新嵌入来提高注意中的矩阵操作，提高了transformer对多尺度特征和高分辨率特征的效率。在卷积前馈网络的帮助下，可以进一步增强特征的局部性，并且可以充分感知和探索全局和局部上下文中的关键线索。
大量的实验表明，该模型在7个RGB-D SOD数据集和3个RGB-T SOD数据集上的性能优于最近的方法。

3、方法：

3.1 网络的总体框架图：

3.2 Transformer-based Information Propagation Path (TIPP)

基于transformer的信息传播路径主要是四个CMUI模块之间自上而下地信息交互和传播，前三个CMUI模块（即CMUI1、CMUI2、CMUI3）都是有三个输入（RGB流、depth/thermal流，来自下一个CMUI的输出 ${f_{rgb-d/t}^{i+1}}$ ），但是最后一个CMUI4模块只有两个输入（即RGB流、depth/thermal流）

IMSA和CSSA两者的结构式相同的，但相较于自注意机制而言两者在FFN（前馈神经网络）和MHSA（多头注意力机制）两部分做出了改进。如下图所示：

其中如上两部分改进的原因：

Q1: MHSA计算复杂度较高

MHSA单头的计算公式：

Qh、Kh、Vh 分别是单个头部的查询、键和值。Wq , Wk, Wv 是对应的投影矩阵。Z = [Y1,., Yh ] $W^{^{o}}$ ， $W^{^{o}}$ 是一个输出投影层。

注意矩阵 $Q_{h}K_{h}^{T}$ 的点积运算具有输入序列长度的二次复杂度w.r.t，即N^2，这限制了它处理多尺度高分辨率特征。

A1:Patch-wise Token Re-Embedding (PTRE)

与MHSA相比，PTRE被应用于将矩阵运算从像素形式提高到逐块形式，从而将复杂度降低了p^2倍。这里，p^2是Patch-wise中的元素数量。具体做法就是将1D序列折叠成2D的形式，部分和总体图如下面两图：

Q2:目前的MHSA只考虑空间视图上的特征对齐，而忽略了通道视图的潜在值

A2:View-Mixed Attention (VMA)

具体做

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一只懒洋洋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。