上海AI实验室CVT-Occ时间融合利用视差搜索刷新occ3DWaymo SOTA_temporal fusion for 3d occupancy prediction-优快云博客

本文链接：https://blog.youkuaiyun.com/laukal/article/details/142870370

上海AI实验室提出CVT-Occ：通过时间融合利用视差搜索刷新occ3D-Waymo SOTA

Abstract

基于视觉的3D占据预测由于单目视觉在深度估计上的固有局限性而面临显著挑战。本文介绍了CVT-Occ，一种新颖的方法，通过时间上的体素几何对应进行时间融合，以提高3D占据预测的准确性。通过在每个体素的视线方向上采样点并整合这些点的历史帧特征，我们构建了一个代价体积特征图，从而优化当前体积特征以改进预测结果。我们的方法利用了历史观察中的视差线索，并采用数据驱动的方法学习代价体积。通过在Occ3D-Waymo数据集上的严格实验验证了CVT-Occ的有效性，在3D占据预测任务上以最小的额外计算成本超越了最新的方法。

代码获取：https://github.com/Tsinghua-MARS-Lab/CVT-Occ

欢迎加入自动驾驶实战群

ntroduction

基于视觉的3D语义占据预测在3D感知领域迅速发展，推动了其在自动驾驶、机器人和增强现实中的关键应用。该任务旨在通过视觉输入估计3D空间内每个体素的占据状态和语义标签。

尽管其重要性显著，3D占据预测面临着巨大的挑战。单靠单目视觉时，深度估计的模糊性尤为突出。虽然立体视觉已被提出作为提高深度估计准确性的一种解决方案，但其在实际应用中仍然有限。立体相机的使用在自动驾驶车辆和机器人系统中是不切实际的，因为它需要大量的校准和重新校准。一种更具前景的替代方法是使用多视角时间融合，它可以利用随时间延伸的多视角基线来增强3D感知任务。

近年来，视觉3D目标检测的进展表明，结合时间观察可以提升检测性能。在我们的研究中，我们将新兴的时间融合方法分为三类，详见图1。前两类方法基于扭曲，使用IMU数据对齐不同时间点的鸟瞰视图特征图，并通过自注意机制或拼接和卷积操作进行特征融合。这些方法隐式地使用时间信息，但没有充分利用3D空间中的几何约束。第三类方法，如图1©所示，使用成本体积技术，能够更好地利用几何约束来获得深度感知的特征，但处理多视角任务时计算成本较高。总的来说，这些方法在利用时间信息和3D几何约束方面存在局限性，尤其是在处理多视角和长时间跨度的数据时。

鉴于这些方法的局限性，我们提出了一种新范式，如图1中的(d)所示。本文中，我们引入了CVT-Occ，这是一种创新的时间融合方法，旨在利用随时间变化的体素几何对应来提高占据预测的准确性。我们的方法涉及沿着每个体素的视线方向采样点——定义为体素与相机光学中心相连的直线——并根据相对相机姿态确定这些点在历史帧中的对应3D位置。然后，我们从历史帧中采样这些点的特征，并将它们与当前体素特征进行整合，构建一个代价体积特征图。该特征图随后用于优化当前体积的特征，从而提高占据预测的准确性。