1. Occ网格图
鸟瞰图(BEV)作为当前主流的感知模式,具备描述环境的绝对尺度和无遮挡的优势,同时为多模态数据提供了统一的特征表示,便于众多下游任务的使用。然而,BEV感知缺乏高度信息,无法提供完整的3D场景表示。针对这一问题,2022年Tesla AI Day上,Elon Musk提出了将Occupancy(占据网格)应用于算法流程中,以捕捉真实世界的密集3D结构。Occupancy感知技术通过体素化世界推断每个体素的占用状态,具备对开集对象、不规则形状车辆和特殊道路结构的强大泛化能力。与BEV相比,Occupancy感知具有3D属性,使其更适用于3D目标检测、3D语义分割和3D跟踪等下游任务。
尽管Occupancy感知自提出以来已进入第三个年头,但它在自动驾驶领域尚未完全成为主流。其中一个主要原因是生成Occupancy标签数据的成本高昂。为此,我们开发了一套半自动Occupancy标签标注流程,显著降低了标注成本。
2. 4D Occ标签标注流程

Fig. 1. 4D Occ标签标注流程,OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving (Zheng et al., 2024)
Step1 场景重建
自从Tesla引入4D注释的概念以来,它已经成为数据闭环过程的关键组件。这种标注技术利用位姿来建立时间关系,并使用密集点云重建来表示一段时间内的交通参与者和道路信息。与传统的3D标注方法相比,重建的地图更加密集,表现出更强的全局一致性,提供增强的视觉效果,显著减少重复任务,并利用更多的先验信息来确保数据的可靠性。利用4D工具生成数据可以大大降低数据生产成本,提高数据质量。根据数据来源的不同,我们可以支持基于点云的重建和基于图像的重建两种方式。
2.1. 基于点云的重建
基于点云的重建依赖于激光雷达等传感器获取的三维点云数据。每个点的x、y、z坐标和强度(intensity)数据反映了物体表面的空间位置信息。点云数据密度高、精度高,能够直接反映物体的三维几何结构和表面材质。通过每帧点云的位姿数据(平移向量和旋转矩阵),可以将不同时刻的点云数据转化为坐标系统一的全局点云。

最低0.47元/天 解锁文章
4079

被折叠的 条评论
为什么被折叠?



