自动驾驶数据革命：半自动Occupancy标注如何定义3D感知新时代

最新推荐文章于 2025-10-14 07:31:28 发布

原创

最新推荐文章于 2025-10-14 07:31:28 发布 · 1.4k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自动驾驶

1. Occ网格图

鸟瞰图（BEV）作为当前主流的感知模式，具备描述环境的绝对尺度和无遮挡的优势，同时为多模态数据提供了统一的特征表示，便于众多下游任务的使用。然而，BEV感知缺乏高度信息，无法提供完整的3D场景表示。针对这一问题，2022年Tesla AI Day上，Elon Musk提出了将Occupancy（占据网格）应用于算法流程中，以捕捉真实世界的密集3D结构。Occupancy感知技术通过体素化世界推断每个体素的占用状态，具备对开集对象、不规则形状车辆和特殊道路结构的强大泛化能力。与BEV相比，Occupancy感知具有3D属性，使其更适用于3D目标检测、3D语义分割和3D跟踪等下游任务。

尽管Occupancy感知自提出以来已进入第三个年头，但它在自动驾驶领域尚未完全成为主流。其中一个主要原因是生成Occupancy标签数据的成本高昂。为此，我们开发了一套半自动Occupancy标签标注流程，显著降低了标注成本。

2. 4D Occ标签标注流程

Fig. 1. 4D Occ标签标注流程，OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving (Zheng et al., 2024)

Step1 场景重建

自从Tesla引入4D注释的概念以来，它已经成为数据闭环过程的关键组件。这种标注技术利用位姿来建立时间关系，并使用密集点云重建来表示一段时间内的交通参与者和道路信息。与传统的3D标注方法相比，重建的地图更加密集，表现出更强的全局一致性，提供增强的视觉效果，显著减少重复任务，并利用更多的先验信息来确保数据的可靠性。利用4D工具生成数据可以大大降低数据生产成本，提高数据质量。根据数据来源的不同，我们可以支持基于点云的重建和基于图像的重建两种方式。

2.1. 基于点云的重建

基于点云的重建依赖于激光雷达等传感器获取的三维点云数据。每个点的x、y、z坐标和强度（intensity）数据反映了物体表面的空间位置信息。点云数据密度高、精度高，能够直接反映物体的三维几何结构和表面材质。通过每帧点云的位姿数据（平移向量和旋转矩阵），可以将不同时刻的点云数据转化为坐标系统一的全局点云。

2.2. 基于图像

最低0.47元/天解锁文章