Occ预测最新SOTA！清华团队提出基于高斯世界模型的GaussianWorld算法~

最新推荐文章于 2025-12-02 15:32:05 发布

原创

最新推荐文章于 2025-12-02 15:32:05 发布 · 976 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#算法

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享清华大学最新的工作—GaussianWorld！基于高斯的全新世界模型。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『世界模型』技术交流群

论文作者 | Sicheng Zuo等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

以视觉信息作为输入的3D占用预测任务最近因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。3D占用预测任务旨在根据视觉输入估计 3D 环境中每个体素的占用状态和语义标签。该任务提供了更细粒度的场景语义和结构描述，这对于开发安全且强大的自动驾驶系统非常重要。

利用时间输入对于 3D 占用预测非常重要，因为它为理解场景演变提供了足够的历史上下文信息。大多数现有方法遵循传统的感知、转换和融合流程，给定顺序输入信息，感知模块独立获得每个帧的场景表示，例如BEV特征以及体素特征。然后，转换模块根据自车轨迹对齐多帧的时序特征信息，融合模块融合对齐的特征表示以推断当前的 3D 占用情况。

然而，这些方法未能考虑驾驶场景演变的固有连续性和简单性。相邻帧中的驾驶场景表示应该彼此紧密相关，因为场景演变通常仅源于自车和其他动态物体的运动。直接融合多帧表征会忽略 3D 场景演化提供的这种强先验信息，即静态物体连贯性和动态物体运动，这使得模型很难理解驾驶场景的发展。此外，这种设计增加了时间建模的复杂性和计算工作量，从而降低了其效率和有效性。

考虑到上述提到的相关问题，在本文中，我们探索基于世界模型的范式以利用场景演变进行感知，该算法称为GaussianWorld。GaussianWorld采用显式 3D 高斯作为场景表示，而不是传统的隐式 BEV/Voxel 表示，这可以实现物体运动的显式和连续建模。给定历史 3D 高斯和当前视觉输入，GaussianWorld算法模型旨在预测场景如何演变并预测当前的占用情况。

为了证明提出的GaussianWorld算法模型的有效性，我们在流行的nuScenes数据集上进行了大量实验。如下图所示，我们的 GaussianWorld 可以有效地预测场景演变，并在不引入额外计算的情况下将单帧占用率预测提高 2% 以上（mIoU）。