CVPR‘24开源 | 通过3D GS进行整体城市3D场景理解！

本文链接：https://blog.youkuaiyun.com/Yong_Qi2015/article/details/136978692

本文提出HUGS方法，通过3D高斯喷涂技术实现基于RGB图像的城市3D场景理解，包括几何、外观、语义和动态物体的实时理解和新视图合成。该方法在没有3D边界框输入的情况下，能处理嘈杂的2D和3D预测，适用于自动驾驶等应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0. 这篇文章干了啥？

在自动驾驶中，全面地表示与驾驶相关的场景的所有方面变得至关重要，包括在实时插值和外推视点处合成图像、重建2D和3D语义、生成深度信息和跟踪动态对象等任务。为了最小化传感器成本，从RGB图像中实现这样的全面理解具有重要价值。

这篇文章利用预测的2D语义标签、光流和3D轨迹，实现基于RGB图像实现对动态场景的全面理解。为实现这一目标，作者使用分解场景表示在3D空间推断几何、外观、语义和运动。作者将3D高斯函数用作场景表示，这些函数最近在具有实时渲染能力的静态场景上展示了优越的新视图合成性能。具体来说，作者建议将场景分解为静态区域和刚性移动的动态对象。对这些移动对象的姿态进行建模，同时遵循单轮车模型的物理约束，有效地减少了跟踪过程中的噪声影响，并且相对于单独优化对象姿态，表现更为出色。能够重建动态场景，即使3D边界框预测非常嘈杂。此外，将3D高斯光栅化扩展到模拟相机曝光，并在动态场景中探索初始化，从而实现了在城市场景上的最先进的新视图合成性能。此外，将语义信息整合到3D高斯函数中，实现语义地图的渲染和3D语义点云的提取。最后，将RGB、语义和光流结合起来，共同监督模型训练，并调查这些图像线索之间的交互，以提高场景理解任务的性能。

下面一起来阅读一下这项工作~