自动驾驶数据革命:半自动Occupancy标注如何定义3D感知新时代

1. Occ网格图

鸟瞰图(BEV)作为当前主流的感知模式,具备描述环境的绝对尺度和无遮挡的优势,同时为多模态数据提供了统一的特征表示,便于众多下游任务的使用。然而,BEV感知缺乏高度信息,无法提供完整的3D场景表示。针对这一问题,2022年Tesla AI Day上,Elon Musk提出了将Occupancy(占据网格)应用于算法流程中,以捕捉真实世界的密集3D结构。Occupancy感知技术通过体素化世界推断每个体素的占用状态,具备对开集对象、不规则形状车辆和特殊道路结构的强大泛化能力。与BEV相比,Occupancy感知具有3D属性,使其更适用于3D目标检测、3D语义分割和3D跟踪等下游任务。

尽管Occupancy感知自提出以来已进入第三个年头,但它在自动驾驶领域尚未完全成为主流。其中一个主要原因是生成Occupancy标签数据的成本高昂。为此,我们开发了一套半自动Occupancy标签标注流程,显著降低了标注成本。

2. 4D Occ标签标注流程

图片

Fig. 1. 4D Occ标签标注流程,OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving (Zheng et al., 2024)

Step1 场景重建

自从Tesla引入4D注释的概念以来,它已经成为数据闭环过程的关键组件。这种标注技术利用位姿来建立时间关系,并使用密集点云重建来表示一段时间内的交通参与者和道路信息。与传统的3D标注方法相比,重建的地图更加密集,表现出更强的全局一致性,提供增强的视觉效果,显著减少重复任务,并利用更多的先验信息来确保数据的可靠性。利用4D工具生成数据可以大大降低数据生产成本,提高数据质量。根据数据来源的不同,我们可以支持基于点云的重建和基于图像的重建两种方式。

2.1. 基于点云的重建

基于点云的重建依赖于激光雷达等传感器获取的三维点云数据。每个点的x、y、z坐标和强度(intensity)数据反映了物体表面的空间位置信息。点云数据密度高、精度高,能够直接反映物体的三维几何结构和表面材质。通过每帧点云的位姿数据(平移向量和旋转矩阵),可以将不同时刻的点云数据转化为坐标系统一的全局点云。

2.2. 基于图像

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值