北京大学与长安汽车联合发布TEOcc: 时域增强的多模态占据预测

北京大学与长安汽车联合发布TEOcc: 时域增强的多模态占据预测

Abstract

作为一种新颖的3D场景表示,语义占据(semantic occupancy)在自动驾驶领域引起了广泛关注。然而,现有的占据预测方法主要集中于设计更好的占据表示形式,例如三视角(tri-perspective view)或神经辐射场(NeRF),而忽视了利用长时段信息的优势。本文提出了一种雷达-摄像头多模态时域增强占据预测网络,称为 TEOcc。我们的方法受益于3D目标检测中利用时域信息的成功经验。具体来说,我们引入了一个时域增强分支,用于学习时域占据预测。在该分支中,我们随机丢弃多视角摄像头的第 t-k 帧,通过长时和短时时域解码器分别利用其他相邻帧及多模态输入信息来预测其3D占据。此外,为了减少计算成本并整合多模态输入,我们特别设计了用于长时和短时时域解码器的3D卷积层。此外,由于轻量化的占据预测头是一个密集分类头,我们提出使用一个共享的占据预测头来服务于时域增强分支和主分支。值得注意的是,时域增强分支仅在训练过程中进行,并在推理阶段被丢弃。实验结果表明,TEOcc在nuScenes基准测试中实现了最先进的占据预测性能。此外,提出的时域增强分支是一个即插即用的模块,可以轻松集成到现有的占据预测方法中以提高其性能。

代码获取:https://github.com/VDIGPKU/TEOcc

 欢迎加入自动驾驶实战群

Introduction

三维占据预测是现代自动驾驶感知系统中的一项新颖且重要的任务。与常见的3D目标检测相比,占据预测可以使用连续的3D网格单元和语义标签来表示任意形状的物体。因此,它可以提供细粒度的几何细节,包括前景物体的具体形状以及整个场景中背景的具体几何结构,从而提高感知效果。此外,在自动驾驶场景中,仅识别训练期间遇到的预定义物体是不够的。未见过的物体可能会出现在道路上,并与自动驾驶车辆相撞。在这种情况下,3D占据预测可以通过非空网格单元和“其他”类别来呈现新物体,从而避免碰撞。

目前基于多视角摄像头的占据预测方法主要关注如何表示占据,包括体素、鸟瞰视角(BEV)、三视角和神经辐射场(NeRF)。一些方法使用层次表示来从粗略特征中获取细粒度的占据特征。尽管已经提出了许多占据预测方法,但它们在长时段时域建模方面的探索较少,而长时段建模在3D目标检测中取得了巨大成功。

为了应对这一问题,我们提出了一种带有时域增强分支的雷达-摄像头多模态占据预测网络,称为 TEOcc。具体来说,在时域增强分支中,我们随机屏蔽了时域多视角摄像头输入中的一帧,并通过长时和短时时域解码器生成其伪特征。需要注意的是,我们仅在训练阶段执行时域增强分支,因此推理时不会增加额外的计算开销。与 HoP 不同,为了减少训练成本并结合雷达特征,我们使用了3D卷积层设计长时和短时时域解码器。此外,HoP 通过拼接长时和短时解码器的特征生

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值