后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料!
1摘要
虽然最近基于纯视觉的3D检测方法利用了时序信息,但它们使用的有限历史信息限制了时序融合性能提升的上限。论文观察到现有多帧图像融合的本质是时序立体匹配,且目前算法的性能受到以下因素影响:1)匹配分辨率的低粒度;2)有限历史信息的使用产生的次优多目设置。论文的理论和实验分析表明,不同像素和深度的视图之间的最优时间有显著差异,因此有必要融合长期历史上的多个时间戳信息。基于此,论文建议从长期的图像观察中生成cost volume,用更优的多目匹配补偿粗糙但有效的匹配分辨率。此外,论文增加了用于长期粗匹配和短期细粒度匹配的逐帧单目深度预测,并发现长短期时间融合具有高度互补性。论文提出的算法名为SOLOFusion,在保持高效的同时,在nuScenes测试集上取得新SOTA!
代码链接:https://github.com/Divadi/SOLOFusion
上图中的 Localization Potential 是作者定义的一个值,当这个值大的时候,变化相同的深度,采样点在两张图像中的成像位置差别越大,因此深度越容易被感知到。比如图中右上角3D世界中的两个红色圆点,在 和 两帧图像中的投影长度是不一样的,这表示在 Ref. view 下,采样点深度变化相同的长度时,在 这一帧中是更容易被网络感知到的
在stereo temporal 3D detection方法下,作者发现目前方法性能(上图中的 Localization Potential )主要受限于:
-
匹配分辨率的低粒度
-
使用的历史帧数量十分有限以至于匹配过程总是次优的
为了分析图像分辨率和 Timesteps 这两个因素如何影响检测性能,作者将3D检测形式化,用candidate匹配中的localization potential来描述模型在相邻帧中感知深度的能力,
并且自然而然提出了一个结合short-term和long-term history的算法(SOLOFusion),在图像分辨率和融合时序帧之间做了一个平衡,在不增加内存和时间消耗的情况下大大提升了算法在nuScenes数据集上的性能
2用于纯视觉3D检测的统一时序立体形式
作者在这一节给出了camera only的基于时序立体匹配的一个通用的形式化定义,作者认为目前的基于时序帧的方法可以归纳为以下通用的组成部分:
-
Candidate Locations:指在3D空间中的需要匹配的点的位置
-
Sampling Operation :如何在已有的2D图像特征中采样对应Candidate Locations所对应的图像中的区域
-
Sampling Resolution :用于采样的2D图像特征的分辨率
-
Temporal Aggregation:用于融合不同帧的特征的方法
-
Timesteps Used:相邻帧之间的间隔
-
Candidate Location Processing:用于处理融合多帧之后的特征的模块,并且这个模块需要给出2D特征到3D世界的映射
-
Task/Supervision:用于监督的任务和对应的loss
根据以上的定义,作者用一个表格来对比了目前多目立体匹配的方法以及L

本文介绍了SOLOFusion,一种新的纯视觉3D检测算法,通过融合长期历史信息和短期高分辨率特征,解决了现有方法在时序匹配中的局限。研究发现,不同像素和深度的视图之间最优时间差异显著,因此SOLOFusion结合长期低分辨率和短期高分辨率的匹配,实现高效性能提升。实验表明,SOLOFusion在nuScenes测试集上取得了新的SOTA结果。
最低0.47元/天 解锁文章
1646

被折叠的 条评论
为什么被折叠?



