点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
今天自动驾驶之心为大家分享港中文&小米最新的工作!以Object为中心的占用补全技术。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
作者 | Chaoda Zheng等
编辑 | 自动驾驶之心
写在前面 && 笔者理解
传统的感知主要采用3D对象边界框(bboxes)来表征感知,但是这样的表示其实是有局限性的,它无法捕捉物体形状的精确细节,特别是对于具有不规则几何形状的物体,因为它本质上是一个包含物体的长方体。比如下图1(a)所示,起重机被一个3D边界框完美包围。但是,其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。而感知出来的结果是将3D边界框所包围的空间视为不可通行的。因此,在处理复杂和不规则形状的物体时,边界框在提供细粒度感知结果方面是不足够的,这可能会影响后续任务的精度,如规划和控制。

所以,占用空间是一个比较强有力的替代方法,如图1(b)所示,占用表示将3D空间离散化为体积网格,其中每个体素被分类为被占用或空闲。与3D边界框相比,这种表示更有效地捕捉不规则形状,从而增强了精确规划和控制。然而,从传感器输入实时生成场景级占用,无论是从视觉中心输入还是激光雷达传感器都非易事,前者是因为缺少深度感知,后者是因为每次激光雷达扫描的稀疏性(见图2(b))。

因此,现有的方法利用神经网络以数据驱动的方式预测占用。由于计算限制,这些方法通常为大场景感知产生低分辨率占用网格或者需要大量的训练来实现隐式表示,这在实际使用中仍然是不够的和效率低下的。另一种构建占用网格的方法是直接体素化激光雷达点云。为了缓解稀疏性问题(图2(b)),聚合多个激光雷达扫描对于背景是有效的。然而,对于前景物体,占用构造变得具有挑战性,因为它需要准确的检测和跟踪来补偿它们的潜在移动。在实时应用中,3D检测容易漂移,跟踪算法可能会丢失或错配物体,导致不准确的轨迹。如图2(d)所示,直接从不准确的轨迹聚合点云会导致极其模糊的形状表示。这些不准确随时间积累,逐渐降低了形状表示的可靠性。
论文链接:https://arxiv.org/pdf/2412.05154
基于这些观察,作者做了本文的工作,主要贡献总结如下:
引入了以对象为中心的占用作为对象边界框的补充,为物体的内在几何提供了更详细的结构描述。与其场景级对应物不同,以对象为中心的占用专门关注前景物体,允许即使在大场景中也能实现更高的体素分辨率。
为了促进以对象为中心的占用感知的发展,作者提出了一个新的以对象为中心的占用数据集,该数据集是使用自动化流水线从零开始构建的。
提出了一个鲁棒的基于序列的占用完成网络。通过使用注意力机制聚合历史观测的时间信息,该网络有效地处理检测漂移,并准确预测完整的对象中心占用。
采用了隐式形状解码器来生成动态大小的占用,并通过对选择位置的查询减少训练成本。在Waymo Open Dataset (WOD) 下的实验表明,即使在嘈杂的检测和跟踪条件下,本文的方法也能展现出鲁棒的性能,完成对象形状。凭借隐式形状描述符,作者展示了最先进的3D对象检测器的性能也可以得到改善,特别是对于不完整或远距离的物体。
相关工作
3D占用空间预测和形状补全
3D语义占用预测(SOP)已成为以视觉为中心的自动驾驶中的关键任务,其中算法主要使用RGB摄像头感知环境。这些以视觉为中心的模型通常将周围环境离散化为体积网格,并通过对单个/多视图RGB图像的适当聚合来预测每个体素的占用状态。对于被占用的体素,模型还会额外预测相应的语义类别。另一个类似的任务是3D语义场景补全(SSC)。与只需要预测可见区域的占用的SOP不同,SSC还要求模型确定未见区域的占用状态。值得注意的是,尽管SOP和SSC主要与以视觉为中心的方法相关,但它们也适用于稀疏激光雷达或多模态输入。现有的SOP和SSC方法主要关注场景级占用,而作者的工作集中在对象级占用上,以更好地表示形状。此外,对于作者设置,被占用体素的语义不是必需的,因为作者主要关注的是对象边界框内的几何结构,其类别标签是已知的。与作者基于占用的方法不同,大多数形状补全方法专注于对象的表面重建。然而,基于表面的表示不太适合自动驾驶感知,因为它们不直接支持诸如避碰等任务。
长序列做3D目标检测
对于单帧检测器可以通过将几个历史帧的连接作为输入,来获得不错的效果。尽管这种简单的多帧策略显示出明显的改进,但随着输入帧数的增加,性能容易饱和。此外,随着输入帧数的增加,计算成本显著增加,这对于实时应用不理想。为了解决这个问题,有的工作采用了残差点探测策略来移除多帧输入中的冗余点,有的工作选择了一种以对象为中心的方法,通过对轨迹提议进行时间聚合,允许处理更长的序列以降低计算成本。此外,还有一些工作通过利用整个对象轨迹的过去和未来信息,展示了人类级别的检测性能。然而,它们仅限于离线应用,因为它们需要访问未来的帧。最近,MoDAR通过使用从长历史子序列预测的未来轨迹点来增强激光雷达点云,从而改进检测。与MoDAR相比,作者的方法能够通过紧凑的隐式潜在嵌入聚合所有历史信息。
隐式表示
隐式形状表示就是用连续函数表示3D形状。与传统的显式表示(例如,点云、网格、体积网格)相比,隐式表示可以在连续空间中描述形状结构,并且更节省内存。而不是手动设计隐式函数,最近的一些工作提出从数据中学习隐式函数。具体来说,他们使用神经网络来近似隐式函数,这可以通过数据驱动的方式进行训练。这些神经函数通常以连续的3D坐标作为输入,并在查询位置输出相关的形状属性(例如,颜色、密度、有符号距离等)。作者的隐式形状解码器与DeepSDF比较相似。然而,作者不是预测查询位置的有符号距离,而是预测其占用概率。
以Object为中心的占用数据集
高质量的数据集对于基于学习的方法至关重要。然而,现有的数据集由于坐标系统不对齐和分辨率不足,无法满足作者对对象中心占用感知的要求。所以作者根据现有的3D检测数据集,用一套自己的pipiline,构建对象中心占用注释,生成了一个数据集。坐标系的定义见图3,,详细构建过程可以参考原文。

基于序列的占用补全网络
图4展示了作者设计的网络架构。使用object序列作为输入,公式化为,其中是时间戳的点云,是相应的噪声3D对象边界框。输入序列可以使用现成的3D检测和跟踪系统生成。作者的主要目标是预测轨迹中每个提议的完整对象中心占用网格。此外,作者使用占用特征来进一步细化3D检测器的检测结果。

通过隐式解码生成动态尺寸占用空间
作者的网络主要关注由对象提议定义的兴趣区域(RoIs)。鉴于不同对象的大小不同,且同一对象的提议可能因检测不准确而异,从特征空间为每个动态大小的提议高效解码占用体积是一个重大挑战。传统的场景级占用感知方法通常应用密集卷积层来解码占用体积。然而,这种策略在动态大小对象中心占用的背景下遇到了几个限制。首先,由于作者需要跨时间戳的特征交互,不同提议的特征最好在同一大小。然而,从固定大小的特征图解码动态大小的体积对卷积来说并不简单。其次,密集卷积操作对于高占用分辨率来说计算成本很高。另一种选择是稀疏卷积,然而,它无法用正确的占用状态填充未占用的体素。
从最近的隐式形状表示的成功中汲取灵感,作者通过隐式形状解码器来解决上述挑战。这个解码器能够基于其对应的潜在嵌入预测RoI内任何位置的占用状态。具体来说,解码器接收潜在嵌入以及查询位置在RoI坐标下,随后输出查询位置的占用概率:
其中实现为一个多层感知机(MLP)。潜在是一个固定长度嵌入,描述RoI内的几何结构。潜在和查询位置在发送到之前被连接在一起。除了使特征交互灵活和计算高效,隐式形状解码器还允许通过连续查询位置更容易地进行占用插值或外推。
双分支 RoI 编码
有了隐式形状解码器,下一步是获得一个准确表示RoI内完整对象形状的潜在嵌入。为了实现准确的形状补全和检测,两个信息源至关重要:
每个RoI的部分几何结构
对象随时间的运动信息。
为了使不同的RoI共享相同的嵌入空间,作者在规范的局部坐标系下对每个RoI进行编码。然而,将RoI转换到局部坐标系不可避免地会丢失对象的全局运动动态,降低了网络处理检测漂移的能力。因此,作者使用两个独立的编码器对每个RoI进行编码:在局部坐标系下编码RoI,在全局坐标系下编码。
具体来说,作者使用FSD中的稀疏实例识别(SIR)模块作为作者的RoI编码器。SIR是基于PointNet的网络,其特点是多个每点MLP和最大池化层。从LiDAR R-CNN中汲取灵感,作者通过RoI的大小信息增强点云。这种增强涉及装饰RoI内的每个点,使其相对于RoI边界的偏移量,使其能够box-aware。所有点在发送到之前都转换到由检测到的边界框定义的局部坐标系中。相反,直接在全局坐标系中编码RoI。对于给定的对象序列,作者分别使用和对每个RoI进行编码,得到两组潜在嵌入和。
通过时间聚合增强特征
RoI编码后,作者使用中的运动信息来丰富局部形状潜在嵌入。首先,作者对应用变换机制来实现跨时间戳的特征交互。为确保在线应用,作者限制每个RoI特征在中仅能关注其历史特征,从而防止来自未来时间戳的信息泄露:
其中CausalAttn是限制注意力在过去时间戳的因果变换器。是正弦位置编码,编码时间戳。是可学习的MLP,编码全局坐标系中的边界框信息。
接下来,作者将丰富的全局潜在与局部潜在融合,以获得最终的潜在嵌入:
其中Concat表示连接操作,MLP是多层感知机,将连接的特征投影到所需的维度。
占用完成和检测细化
给定最终潜在嵌入,作者可以通过在不同位置查询隐式形状解码器来预测每个提议的完整对象中心占用体积。在训练期间,作者从每个标注的占用中随机采样固定数量的查询位置和相应的占用状态。为确保占用预测不受偏差影响,作者采用平衡采样策略,其中从被占用体素中采样512个点,从空闲体素中采样512个点。对于与真实边界框(GT)匹配的RoI,作者使用RoI和边界框之间的相对姿态将相应的查询集转换到其坐标系中。然后,这些位置查询被发送到隐式解码器以计算占用损失。在推理期间,作者通过在RoI的所有体素中心查询解码器来为每个RoI生成密集的占用体积。由于现在编码了完整对象形状的信息,它为更好的检测提供了更多的几何信息。为了保留运动信息,作者还将与全局RoI特征融合:
融合的特征随后被送入检测头,用于边界框和得分细化(见图4)。
损失函数
整体训练损失由三个部分组成:占用完成损失,边界框损失和对象性损失:
其中和是平衡这三个损失的超参数。作者对和使用二元交叉熵损失,对使用L1损失。
实验及结果
实现细节
为了生成网络的输入,作者首先使用FSD 和CenterPoint 作为基础检测器来生成对象提议。然后作者利用ImmortalTracker 将检测结果关联成对象轨迹提议。作者使用生成的对象轨迹提议以及GT轨迹作为训练序列。为了便于并行训练,作者在训练期间通过填充或剪切将每个轨迹规范为固定长度的32帧。为了加速收敛,作者在每个轨迹内的所有时间戳计算损失,而不仅仅是最后一个。在推理期间,模型通过查看所有历史框来输出时间戳t的精炼框。
作者在Waymo Open Dataset (WOD)上进行评估。使用官方训练集,包括798个序列进行训练,以及202个序列进行评估。
形状补全结果
与基线对比 由于对象中心占用是一个新任务,据作者所知,没有现成的基于学习的方法可以用于比较。所以,作者将其方法与直接在噪声轨迹提议中累积和体素化历史点云的基线进行比较。作者在三种类型的轨迹输入上评估形状补全性能:真实轨迹(GT),由CenterPoint(CP)生成的轨迹,以及由FSD生成的轨迹。如表1所示,形状补全性能与输入轨迹的质量密切相关,更好的轨迹导致更好的形状补全。在所有情况下,作者的方法都优于基线,即使是在输入轨迹是无噪声GT的情况下。这是因为该方法可以通过训练数据中学到的知识有效地完成对象形状,即使在早期时间戳,而基线只有在更多视图可见的后期时间戳才变得有效。

鲁棒性 为了模拟不满足检测和跟踪结果,作者对GT框提议添加了一些轻微的噪声。从表1中作者可以发现,基线性能显著下降(>10% IoU),而作者的方法在这种情况下保持了稳定的性能(<5% IoU),证明了其对这些噪声和不准确轨迹的强大鲁棒性。
有真值bbox的结果 由于隐式形状解码器,作者的方法有潜力预测任何位置的占用状态。为了证明这种能力,作者通过在GT框内的所有体素中心查询隐式解码器来进行实验。如表1所示,当考虑RoI外的外推结果时,形状补全性能得到了进一步提高(Ours-E),展示了作者隐式形状表示的灵活性。
泛化能力 表1的最后一行展示了通过直接将作者训练好的模型应用于FSDv2 生成的轨迹提议所获得的占用补全结果。由于更好的检测,即使没有重新训练,作者的方法与CenterPoint相比仍然表现更好。然而,与使用FSD轨迹相比,它的表现略差,尽管FSDv2的检测结果比FSD好。这表明显著的检测改进通常会导致更好的形状补全(FSDv2与CenterPoint相比)。
目标检测结果
主要结果 表2展示了在WOD验证集上的3D检测结果。当作者的方法应用于CenterPoint 和FSD 生成的轨迹提议时,观察到了显著的改进。与之前的最先进方法MoDAR 相比,作者的方法在1帧CenterPoint上取得了更大的提升(例如,8.6%对3.2%的L1 AP改进)。将作者的方法应用于更先进的检测器,1帧FSD ,仍然可以获得显著的改进。这种增强与将MoDAR添加到类似性能的检测器(即,3帧SWFormer )相比更为显著。此外,通过将作者的方法应用于7帧FSD,作者实现了新的在线检测最先进结果,在L1和L2上分别达到了83.3% AP和75.7% APH。这表明作者的方法在对象检测中有效地聚合了长序列信息,除了形状补全。此外,作者的方法可以无缝集成到其他最先进的检测器中,而无需在训练数据中重新训练它们各自的轨迹。

范围细分 远距离对象由于稀疏性更难以检测。作者进一步分析了不同距离范围的检测性能。如表3所示,随着距离的增加,作者对基线检测器的改进变得更加显著。这表明作者的方法通过形状补全有效地解决了远距离对象的稀疏性问题。

模型分析
在这一部分,作者评估了作者方法中不同设计选择的性能,并分析了它们对形状补全和检测性能的影响。

单分支or双分支模型 作者首先评估仅使用单个分支进行RoI编码时的性能。在此设置中,仅使用局部编码器在局部坐标系中编码RoI。编码的特征通过因果变换器增强,然后用于生成占用和检测输出。如表4所示,单分支模型在形状补全和检测方面都不如作者的双分支模型。这表明全局分支的运动信息对于准确的形状补全和检测细化至关重要。
显示or隐示占用预测 然后作者尝试使用显式占用预测来细化检测结果。具体来说,作者从每个预测的占用体积中采样被占用的体素中心,并应用全局RoI编码器生成用于检测的最终特征。然而,如表4所示,这种策略导致性能显著下降。由于占用采样过程的非可微性质,当依赖显式占用预测时,检测错误无法反向传播到其他组件,导致训练不稳定。相比之下,作者的隐式形状表示允许形状补全和检测的联合端到端训练,从而获得更好的性能。
占用任务帮助检测任务 最后,作者评估了占用任务对检测性能的影响。作者从完整模型中移除了OCC头,并仅使用检测损失重新训练。如表4最后一行所示,缺少占用解码器会导致检测性能显著下降。这表明占用补全任务不仅明确丰富了对象形状表示,而且还通过为潜在空间提供额外的几何信息来增强检测。
训练和测试的长度 表5显示了序列长度对作者方法性能的影响。作者使用8帧和16帧轨迹重新训练作者的方法。如表5的前3行所示,使用更长的序列进行训练可以带来更好的结果。然而,当序列长度翻倍时,性能提升逐渐减少。为了在性能和计算成本之间取得平衡,作者将默认训练长度设置为32。

计算效率 表6显示了所提出的形态解码器的时间和GPU内存成本。由于对象轨迹的长度不同,作者方法的运行时间也可能因不同的输入而异。此外,解码的对象中心占用的维度取决于检测到的边界框。为了公平测试运行时间,作者将输入长度标准化为32,并将解码查询的数量设置为4096。如表6所示,形态解码器仅引入了轻微的计算成本增加,展示了其效率。

总结和局限
局限
从技术角度讲,作者的自动占用注释依赖于刚体假设,这可能不适用于可变形物体。因此,作者的实验专注于车辆对象,因为它们是刚性的。尽管作者的方法可以应用于其他可变形对象类别,但由于真实数据中的大量噪声,对可变形物体的准确评估无法得到保证。
总结
在这项工作中,作者引入了一个新任务,以对象为中心的占用,它扩展了传统的对象边界框表示,以提供对对象形状的更详细描述。与场景级对应物相比,对象中心占用通过关注前景对象,在大场景中实现了更高的体素分辨率。为了促进对象中心占用学习,作者使用激光雷达数据和Waymo Open Dataset (WOD)中的框注释构建了一个对象中心占用数据集。进一步提出了一个基于序列的占用补全网络,该网络从作者的数据集中学习,以从不准确的对象提议中补全对象形状。该方法在WOD上的形状补全和对象检测任务上都取得了最先进的性能。
==============
作者:三金
时间:2024.12.15
① 2025中国国际新能源技术展会
自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵