nuScenes 纯视觉新SOTA！SOLOFusion：时序立体3D检测的新观点和基线

原创

已于 2022-10-23 20:40:08 修改 · 2.1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #python #计算机视觉 #机器学习 #人工智能

于 2022-10-21 09:00:40 首次发布

本文介绍了SOLOFusion，一种新的纯视觉3D检测算法，通过融合长期历史信息和短期高分辨率特征，解决了现有方法在时序匹配中的局限。研究发现，不同像素和深度的视图之间最优时间差异显著，因此SOLOFusion结合长期低分辨率和短期高分辨率的匹配，实现高效性能提升。实验表明，SOLOFusion在nuScenes测试集上取得了新的SOTA结果。

后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料！

1摘要

虽然最近基于纯视觉的3D检测方法利用了时序信息，但它们使用的有限历史信息限制了时序融合性能提升的上限。论文观察到现有多帧图像融合的本质是时序立体匹配，且目前算法的性能受到以下因素影响：1）匹配分辨率的低粒度；2）有限历史信息的使用产生的次优多目设置。论文的理论和实验分析表明，不同像素和深度的视图之间的最优时间有显著差异，因此有必要融合长期历史上的多个时间戳信息。基于此，论文建议从长期的图像观察中生成cost volume，用更优的多目匹配补偿粗糙但有效的匹配分辨率。此外，论文增加了用于长期粗匹配和短期细粒度匹配的逐帧单目深度预测，并发现长短期时间融合具有高度互补性。论文提出的算法名为SOLOFusion，在保持高效的同时，在nuScenes测试集上取得新SOTA！

代码链接：https://github.com/Divadi/SOLOFusion

上图中的 Localization Potential 是作者定义的一个值，当这个值大的时候，变化相同的深度，采样点在两张图像中的成像位置差别越大，因此深度越容易被感知到。比如图中右上角3D世界中的两个红色圆点，在和两帧图像中的投影长度是不一样的，这表示在 Ref. view 下，采样点深度变化相同的长度时，在这一帧中是更容易被网络感知到的

在stereo temporal 3D detection方法下，作者发现目前方法性能（上图中的 Localization Potential ）主要受限于：