【论文阅读】【多传感器融合】TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

论文介绍了一种名为TransFusion的方法,针对3D对象检测,通过Transformer结合lidar和camera数据,提出软连接策略,提高鲁棒性。文章比较了现有融合方法的不足,并借鉴DETR架构进行优化,尤其关注query初始化和融合模块的crossattention设计。结果表明在复杂场景下表现出良好性能。

论文标题:TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

CVPR2022
现存的Lidar-Camera融合的方法:主要分为三类:result-level,proposal-level以及point-level
result level是这么做的:首先用现成的2d检测器来生成3dproposals,然后用pointnet来进行物体定位。(FPointNet/RoarNet)
proposal level是这么做的:融合在proposal阶段,通过对于两个模态的信息进行roi pool操作进行融合。但是这种方法的效果不理想,主要是在image会引入很多的背景噪声点,这是我们不希望得到的。(MV3D、AVOD)
point level则是尝试在点层面进行融合,在lidar点云和pixel像素之间建立硬连接,然后进行concat拼接。
这么做有什么不好的地方呢?
首先这样做很大程度地收到image质量的影响。其次硬链接是一对一的连接,这样浪费了很多pixel的丰富的语义信息,同时还需要很精准的calibration。
本文要讲这么一个故事:怎么设计一个鲁棒的检测器来进行两种信息域信息的软连接?
老规矩 上图!
在这里插入图片描述

query initialization

整篇文章的架构很像DETR和3DETR,没有看过的朋友可以先看一下这两篇文章。收到efficient DETR的启发,给定query一个精准的定位,相比随机的参数初始

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值