论文标题:TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers
CVPR2022
现存的Lidar-Camera融合的方法:主要分为三类:result-level,proposal-level以及point-level
result level是这么做的:首先用现成的2d检测器来生成3dproposals,然后用pointnet来进行物体定位。(FPointNet/RoarNet)
proposal level是这么做的:融合在proposal阶段,通过对于两个模态的信息进行roi pool操作进行融合。但是这种方法的效果不理想,主要是在image会引入很多的背景噪声点,这是我们不希望得到的。(MV3D、AVOD)
point level则是尝试在点层面进行融合,在lidar点云和pixel像素之间建立硬连接,然后进行concat拼接。
这么做有什么不好的地方呢?
首先这样做很大程度地收到image质量的影响。其次硬链接是一对一的连接,这样浪费了很多pixel的丰富的语义信息,同时还需要很精准的calibration。
本文要讲这么一个故事:怎么设计一个鲁棒的检测器来进行两种信息域信息的软连接?
老规矩 上图!

query initialization
整篇文章的架构很像DETR和3DETR,没有看过的朋友可以先看一下这两篇文章。收到efficient DETR的启发,给定query一个精准的定位,相比随机的参数初始

论文介绍了一种名为TransFusion的方法,针对3D对象检测,通过Transformer结合lidar和camera数据,提出软连接策略,提高鲁棒性。文章比较了现有融合方法的不足,并借鉴DETR架构进行优化,尤其关注query初始化和融合模块的crossattention设计。结果表明在复杂场景下表现出良好性能。
最低0.47元/天 解锁文章
1313





