港理工OccProphet：纯视觉Occ SOTA！速度提升至2.6倍，内存占用减少60%（ICLR'25）-优快云博客

本文链接：https://blog.youkuaiyun.com/CV_Autobot/article/details/145866589

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享港理工ICLR 2025最新的工作—OccProphet！多快好省的端到端纯视觉4D占用预测，性能提升1.2倍，速度提升至2.6倍，内存占用减少近60%。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『占用网络』技术交流群

论文作者 | Junliang Chen等

编辑 | 自动驾驶之心

本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现高效的未来4D占用预测。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能，成本减少近80%！相比此前最先进的方法，OccProphet性能提升至1.2倍，速度提升至2.6倍，内存占用减少近60%，仅需24G显存即可完成训练和推理。代码即将开源。

论文链接：https://arxiv.org/abs/2502.15180
代码链接：https://github.com/JLChen-C/OccProphet

图1：（左）OccProphet示意图。OccProphet仅接收多相机视频输入，并生成未来时刻的占用；（右）相比于Cam4DOcc，OccProphet性能提升约20%，速度提升约160%

动机

提升自动驾驶车辆对动态环境的感知与预测能力，是自动驾驶安全性和可靠性的迫切需求。传统的占据感知（Occupancy Perception）方法通过学习空间中的占据状态,能够理解环境的当前和过去状态，而无法预测未来动态。事实上，预测未来场景对于安全驾驶和避免碰撞至关重要。

这篇文章研究基于相机的占用预测（Occupancy Forecasting），能够理解自动驾驶车辆周围环境的动态变化，并对未来进行合理预测。考虑到现有的基于相机的占据预测方法（例如Cam4DOcc）计算成本高，不具备在计算资源受限的边缘设备（例如自动驾驶车辆）的部署能力，这篇文章的主要动机在于开发一种轻量且高效的框架——OccProphet。

它仅仅使用环视图片序列作为输入，能准确预测未来时刻的4D占据（时间维度+空间维度）。在轻量化处理上，OccProphet引入了三大精简模块（Observer、Forecaster 和 Refiner），并采用高效的4D特征聚合与三元组注意力融合策略，旨在在显著降低计算需求的同时提升预测的准确性。这一进步，首次展现了4D占用感知在自动驾驶车辆上部署的可行性。

方法详解

如图2所示，OccProphet 是一种新型的仅基于摄像头的占据预测框架，它不管在训练阶段还是推理阶段都是计算友好的。

图2：OccProphet概述。它接收来自环视摄像头的多帧图像作为输入，并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成：观察器（Observer）、预报器（Forecaster）、细化器（Refiner）和预测器（Predictor）。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后，预测器模块产生对未来占用或占用流的最终预测。

观察器（Observer）模块：高效且有效地聚合多帧观测（即多帧3D体素特征）中的时空信息。
预报器（Forecaster）模块：在 Observer 的输出基础上，自适应地预测未来状态，从而确保在各种交通状况下的灵活性。
细化器（Refiner）模块：通过促进帧间交互，进一步提升这些预测的质量。
预测器（Predictor）：将经过优化的未来状态解码为占用或占用流。

OccProphet 在创新性方面主要做出了以下贡献：

一种新颖的仅基于摄像头的占用预测框架，在训练和推理过程中都兼具高效性和有效性，适用于车载部署。
一个轻量级的观察器-预报器-细化器框架。观察器（Observer）模块从历史观测中提取时空特征；预报器（Forecaster）模块有条件地预测粗略的未来状态；细化器（Refiner）模块则进一步提升预测准确性。
实验结果表明，OccProphet在预测准确性上更胜一筹，同时其计算成本不到Cam4DOcc的一半。这些优势在nuScenes、Lyft-Level5以及nuScenes-Occupancy数据集上均得到了验证。

关键组件

观察器（Observer）

观察器（Observer）模块接收4D运动感知特征作为输入，并生成时空感知表示。通过多相机RGB图像在时间戳上的数据，使用共享的图像编码器（例如ResNet）提取2D特征，这些特征被投影到3D空间中并聚合成体素化的3D特征。随后，来自多个帧的3D特征根据6自由度(6-DoF)自车姿态对齐至当前帧坐标系，形成4D特征，然后通过附加6-DoF自车姿态信息生成运动感知4D特征。考虑到直接处理的计算负担和3D空间大部分区域未被占用的事实，本文提出使用高效4D聚合模块和三元组注意力融合模块来有效地生成时空感知特征。

Efficient 4D Aggregation（高效4D聚合）

图3：高效4D聚合模块

直接聚合原始4D运动感知特征会导致高计算成本。为提高效率，本文设计了名为高效聚合（Efficient 4D Aggregation, E4A）的模块，该模块首先通过下采样生成紧凑特征，然后在这些紧凑特征上利用时空交互实现聚合，最后通过上采样过程补偿信息丢失。E4A模块架构首先通过3D卷积将的通道数从减少到，形成特征。为了弥补因下采样导致的信息丢失，尤其是小物体的信息丢失，该方法一方面对下采样后的特征进行时空交互（即三元组注意力融合模块），另一方面对后交互特征进行上采样，并与下采样前相同分辨率的特征相加，直到上采样特征的分辨率匹配初始运动感知特征的分辨率。

Tripling-Attention Fusion（三元组注意力融合）

图4：三元组注意力融合（左）和三元组分解操作（右）

三元组注意力融合模块（TAF）专为促进多个三维特征间的时空交互而设计，通过提出的三三元组分解操作进一步降低计算成本。该操作旨在从三个互补且紧凑的角度理解三维空间，从而以较低的计算成本保留三维场景信息。具体而言，三元组分解操作将三维特征分解为场景、高度和BEV三个分支，分别压缩三维特征至一维或二维特征，减少后续计算开销。场景分支提取全局上下文，提供对场景的整体理解；高度分支保留垂直细节，作为2D BEV分支的补充线索，增强三维几何信息的表现能力。

在数学表达上，给定输入特征，通过全局平均池化（GAP）、线性变换（Linear）、一维卷积（Conv）、归一化（Norm）及激活函数（Act）处理，分别得到场景、高度、BEV分支的输出。随后，通过对不同分支应用时间注意力（TA），并利用广播技术将这三个分支的结果相加，最终得到TAF模块的输出特征。

预报器（Forecaster）

图5：预报器的结构

给定由Observer模块输出的时空表示，预报器（Forecaster）模块旨在生成未来状态。首先通过将时间轴折叠进通道轴来重塑，形成重塑后的特征。直接使用单一线性层预测未来帧特征的方法虽然简单，但难以适应不同交通场景下显著变化的空间时间复杂性，尤其在动态复杂的环境（如拥挤的十字路口）中预测难度更大。

为应对这些挑战，提出了一种灵活适应各种具有不同空间时间复杂性的交通场景的预测方法。该方法包括一个条件生成器（Condition Generator）和一个有条件预报器（Conditional Forecaster）。首先，条件生成器通过3D全局平均池化（GAP）和跨帧共享的线性层从观测值中提取条件，然后将其重新排布为并传递给有条件预报器以预测未来状态。具体来说，对应用线性层产生针对特定交通场景的自适应权重，并使用另一线性层基于这些权重预测未来状态。最终得到的未来状态特征被重新排布回包含时间轴的形式，作为未来环境的初步特征，并进一步通过细化器（Refiner）模块进行细化处理。

细化器（Refiner）

鉴于预报器模块通过线性投影预测，其不可避免地缺乏帧间交互。为弥补这一缺陷，设计了细化器（Refiner）模块，旨在通过增强未来帧间的交互，并结合历史帧作为补充信息来提升预测结果的准确性。高效4D聚合模块（E4A）作为一个时空交互模块对于任何输入特征，其功能可表示为，其中是高效4D聚合模块的输出特征，代表变换函数。考虑到残差网络有助于细化和网络优化，可以将高效4D聚合视为一种特征的“细化变换”，这也有助于降低前序模块的学习复杂度。

基于上述见解，进一步引入了一个重用高效4D聚合架构的细化器模块，用于精细化由预报器预测的未来状态以及由观察器输出的特征。具体来说，细化器应用于这两个特征，生成增强后的特征，以便后续进行占用和占用流的预测。

实验

网络的训练使用4块（至少1块）RTX4090 GPU，测试使用1块RTX4090 GPU（24G显存）。

实验结果表明，OccProphet在预测准确性和效率上均表现出色，在三个数据集上相对于最先进的Cam4DOcc模型，其占用预测准确性分别提升了4%∼18%，同时运行速度提高了约1.6倍，计算成本降低了58%∼78%。

定性实验

图6：Cam4DOcc与OccProphet的定性实验

Cam4DOcc和OccProphet在未来2秒内的占用预测可视化。红色虚线矩形表明OccProphet的结果相比Cam4DOcc的结果与真实标注更加一致。第一行结果表明OccProphet在低光照条件下具有较强的适应性。

定量实验

图7：不同表征形式之间的比较

采用E4A表征在性能上优于BEV和TPV表征，且参数更少，计算成本仅略有增加。

图8：在细粒度的一般运动物体和一般静态物体上的4D占用预测性能

OccProphet在细粒度的4D占用预测上具有明显优势。

图9：模型复杂度的比较

与Cam4DOcc相比，OccProphet的参数量、内存占用和FLOPs均降低了58%-78%，同时OccProphet在未来帧的平均IoU上实现了相对4%的提升，并且其FPS达到了Cam4DOcc的2.6倍。

更多定性和定量实验及分析见论文。OccProphet将激励在高效占用预测及其车载部署等领域的更多研究。

结论

本文提出了OccProphet，这是一种用于占用预测的全新纯视觉框架。该框架采用了一个Observer Forecaster Refiner管道，专门用于高效和有效的培训和推理。这种效率和有效性是通过4D聚合和对低分辨率特征进行三重注意力融合来实现的。实验结果证明了OccProphet在预测准确性和效率方面的优越性。在三个数据集上，它在占用率预测方面比最先进的Cam4DOcc高出4%至18%，同时运行速度提高了2.6倍，计算成本降低了58%-78%。我们希望OccProphet能够推动未来在高效占用率预测及其在车载部署中的应用方面的研究。

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）