nuScenes 纯视觉新SOTA!SOLOFusion:时序立体3D检测的新观点和基线

本文介绍了SOLOFusion,一种新的纯视觉3D检测算法,通过融合长期历史信息和短期高分辨率特征,解决了现有方法在时序匹配中的局限。研究发现,不同像素和深度的视图之间最优时间差异显著,因此SOLOFusion结合长期低分辨率和短期高分辨率的匹配,实现高效性能提升。实验表明,SOLOFusion在nuScenes测试集上取得了新的SOTA结果。

后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料!

1摘要

虽然最近基于纯视觉的3D检测方法利用了时序信息,但它们使用的有限历史信息限制了时序融合性能提升的上限。论文观察到现有多帧图像融合的本质是时序立体匹配,且目前算法的性能受到以下因素影响:1)匹配分辨率的低粒度;2)有限历史信息的使用产生的次优多目设置。论文的理论和实验分析表明,不同像素和深度的视图之间的最优时间有显著差异,因此有必要融合长期历史上的多个时间戳信息。基于此,论文建议从长期的图像观察中生成cost volume,用更优的多目匹配补偿粗糙但有效的匹配分辨率。此外,论文增加了用于长期粗匹配和短期细粒度匹配的逐帧单目深度预测,并发现长短期时间融合具有高度互补性。论文提出的算法名为SOLOFusion,在保持高效的同时,在nuScenes测试集上取得新SOTA!

代码链接:https://github.com/Divadi/SOLOFusion

ec7d8b07278b9c88f5b359bb523645e0.png

上图中的 Localization Potential 是作者定义的一个值,当这个值大的时候,变化相同的深度,采样点在两张图像中的成像位置差别越大,因此深度越容易被感知到。比如图中右上角3D世界中的两个红色圆点,在 和 两帧图像中的投影长度是不一样的,这表示在 Ref. view 下,采样点深度变化相同的长度时,在 这一帧中是更容易被网络感知到的

stereo temporal 3D detection方法下,作者发现目前方法性能(上图中的 Localization Potential )主要受限于:

  1. 匹配分辨率的低粒度

  2. 使用的历史帧数量十分有限以至于匹配过程总是次优的

为了分析图像分辨率和 Timesteps 这两个因素如何影响检测性能,作者将3D检测形式化,用candidate匹配中的localization potential来描述模型在相邻帧中感知深度的能力,

并且自然而然提出了一个结合short-term和long-term history的算法(SOLOFusion),在图像分辨率和融合时序帧之间做了一个平衡,在不增加内存和时间消耗的情况下大大提升了算法在nuScenes数据集上的性能

2用于纯视觉3D检测的统一时序立体形式

作者在这一节给出了camera only的基于时序立体匹配的一个通用的形式化定义,作者认为目前的基于时序帧的方法可以归纳为以下通用的组成部分:

  1. Candidate Locations:指在3D空间中的需要匹配的点的位置

  2. Sampling Operation :如何在已有的2D图像特征中采样对应Candidate Locations所对应的图像中的区域

  3. Sampling Resolution :用于采样的2D图像特征的分辨率

  4. Temporal Aggregation:用于融合不同帧的特征的方法

  5. Timesteps Used:相邻帧之间的间隔

  6. Candidate Location Processing:用于处理融合多帧之后的特征的模块,并且这个模块需要给出2D特征到3D世界的映射

  7. Task/Supervision:用于监督的任务和对应的loss

根据以上的定义,作者用一个表格来对比了目前多目立体匹配的方法以及L

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值