0. 这篇文章干了啥?
在自动驾驶中,全面地表示与驾驶相关的场景的所有方面变得至关重要,包括在实时插值和外推视点处合成图像、重建2D和3D语义、生成深度信息和跟踪动态对象等任务。为了最小化传感器成本,从RGB图像中实现这样的全面理解具有重要价值。
这篇文章利用预测的2D语义标签、光流和3D轨迹,实现基于RGB图像实现对动态场景的全面理解。为实现这一目标,作者使用分解场景表示在3D空间推断几何、外观、语义和运动。作者将3D高斯函数用作场景表示,这些函数最近在具有实时渲染能力的静态场景上展示了优越的新视图合成性能。具体来说,作者建议将场景分解为静态区域和刚性移动的动态对象。对这些移动对象的姿态进行建模,同时遵循单轮车模型的物理约束,有效地减少了跟踪过程中的噪声影响,并且相对于单独优化对象姿态,表现更为出色。能够重建动态场景,即使3D边界框预测非常嘈杂。此外,将3D高斯光栅化扩展到模拟相机曝光,并在动态场景中探索初始化,从而实现了在城市场景上的最先进的新视图合成性能。此外,将语义信息整合到3D高斯函数中,实现语义地图的渲染和3D语义点云的提取。最后,将RGB、语义和光流结合起来,共同监督模型训练,并调查这些图像线索之间的交互,以提高场景理解任务的性能。
下面一起来阅读一下这项工作~