点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享澳门大学X武汉大学最新的工作!时序融合等价于梯度下降?GDFusion 刷新 OCC 性能 SOTA,显存还大降72%!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Dubing Chen等
编辑 | 自动驾驶之心
论文标题:Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction
作者单位:澳门大学、武汉大学、酷哇科技
论文链接:https://arxiv.org/pdf/2504.12959
项目主页:https://cdb342.github.io/GDFusion
一句话总结:来自澳门大学等机构的研究者提出了一种全新的时序融合框架GDFusion。它通过一个极其巧妙的视角——将传统RNN更新过程重新诠释为“特征空间上的梯度下降”,成功统一了多种异构时序信息的融合。GDFusion不仅在3D占用栅格预测任务上取得了1.4%-4.8%的mIoU提升,更惊人地将推理显存消耗降低了27%-72%,实现了性能和效率的双赢。

自动驾驶汽车的“眼睛”如何看懂三维世界? 3D语义占用栅格预测(3D Semantic Occupancy Prediction) 是当前最热门的解法之一。它要求车辆不仅要感知到物体的3D位置(占用),还要理解其类别(语义),就像在车载电脑里实时构建一个精细的、带标注的三维沙盘。
为了让这个“沙盘”更稳定、更准确,利用视频数据中的时序信息至关重要。然而,现有方法大多停留在简单地将前后帧的3D特征进行“堆叠”或“对齐”,这种方式虽然有效,却忽略了时间维度中蕴含的更丰富、更多层次的宝贵线索。
最近,来自澳门大学等机构的研究者们对这一问题发起了挑战。他们认为,我们应该 “重新思考(Rethinking)”时序融合。在一篇名为《Rethinking Temporal Fusion with a Unified Gradient Descent View》的论文中,他们提出了一个名为 GDFusion 的即插即用框架,不仅挖掘了被忽视的多层次时序线索,还为如何优雅地融合它们提供了一个全新的统一范式。
一、被忽视的宝藏:三种关键的时序线索
当前方法在进行时序融合时,通常只在最后一步,即3D体素(Voxel)层面进行。这好比我们只关心最终的结论,而忽略了推理过程中的重要中间信息。研究者们敏锐地指出,在从2D图像到3D占用的整个流水线中,至少有三种关键的时序线索被白白浪费了:

场景级别线索 (Scene-level Cue):自动驾驶场景在短时间内具有高度一致性。比如,天气(晴天/雨天)、光照(白天/黑夜)不会在几秒内剧变。历史帧的这些全局信息,可以作为强大的先验知识,帮助当前帧更好地适应环境,提高模型的泛化能力。
运动线索 (Motion Cue):为了融合前后帧的3D特征,我们需要补偿自车的移动和场景中动态物体的运动。当前帧的运动预测可能不准,但历史帧的运动信息(比如一辆车正在匀速直线行驶)可以用来校准和修正当前的运动估计,从而实现更精准的特征对齐。
几何线索 (Geometry Cue):在将2D图像特征“提升”(Lift)到3D空间时,深度等几何信息至关重要。当前帧可能因为遮挡或光照问题导致几何预测不准(比如看不清被前方卡车挡住的小车),而历史帧在不同视角下捕捉到的几何信息,则可以有效“补全”当前帧的缺失,提供更鲁棒的几何先验。
这三种线索分别作用于不同的模块,数据形态各异(场景是网络参数,运动是3D流场,几何是深度图),如何设计一个统一的框架来融合它们,成了一个核心难题。
二、GDFusion的核心思想:万物皆可“梯度下降”
GDFusion的巧妙之处,在于它为融合异构信息找到了一个统一的“度量衡”——梯度下降。
传统RNN的更新公式可以写成 h^t = Ah^{t-1} + Bx^t
,其中 h^t
是当前时刻的隐藏状态,h^{t-1}
是历史状态,x^t
是当前输入。
而GDFusion的作者们则提供了一个全新的视角:我们可以把这个更新过程看作是在特征空间上进行的一步梯度下降!
具体来说,我们可以定义一个损失函数 Loss = ||Ah^{t-1} - Bx^t||²
,这个损失衡量了历史信息和当前信息的“差异”。为了让历史信息向当前信息“靠拢”,我们可以在 h^{t-1}
上沿着损失函数的负梯度方向更新一步。经过推导,这个更新公式的形式与标准RNN惊人地一致!

这个发现如同一把“万能钥匙”,打开了融合所有时序线索的大门:
对于运动融合:定义一个损失,衡量“根据历史运动预测的当前特征位置”与“实际的当前特征位置”之间的差异。这个损失的梯度,就告诉我们应该如何修正运动估计。
对于几何融合:定义一个损失,衡量“历史几何信息”与“当前几何信息”的差异。通过梯度更新,得到一个更平滑、更鲁棒的融合几何。
对于场景融合:通过自监督任务,让模型学习适应场景变化的参数。更新过程同样可以被看作是参数空间上的梯度下降。
通过这种方式,GDFusion将看似无关的多种时序融合任务,全部统一到了一个优雅、可解释的梯度下降框架之下。

三、实验效果:性能与效率的双重飞跃
GDFusion的理念听起来很棒,实际效果如何?研究者在Occ3D、SurroundOcc等多个主流数据集上进行了详尽的实验。
1. 性能显著提升,显存大幅降低
从下表可以看出,将GDFusion(以-GF后缀表示)应用到BEVDetOcc、FB-Occ、ALOcc等多种主流基线上,都带来了一致且显著的性能提升。在Occ3D benchmark上,mIoU提升了1.4%至4.8%。
更令人惊艳的是其显存效率。以BEVDetOcc为例,其基线时序融合方法(SF)需要10717MB显存,而GDFusion在取得更好性能的同时,仅需3017MB,显存消耗降低了72%! 这对于资源受限的车端部署场景,无疑是巨大的福音。

在SurroundOcc benchmark上,GDFusion同样表现出色,在搭载ALOcc-mini的情况下,性能和效率甚至超越了先前被认为高效的GaussianFormer系列方法。

在OpenOccupancy benchmark上,作者研究了多模态输入下的时序融合性能,在搭配ALOcc-2D的情况下,即使不使用点云backbone,性能也能超越先前的相机点云融合方法。

最关键的是,如论文原文所强调,在这些数据集上,GDFusion带来的性能提升所产生的计算和显存开销几乎可以忽略不计 (negligible overhead)。这再次证明了GDFusion框架设计的优雅与高效,它是一个真正即插即用、低成本高回报的增强模块。
2. 与传统长时序融合对比
研究者还将GDFusion与经典的长时序融合方法SOLOFusion进行了对比。如下图所示,SOLOFusion的性能和显存消耗都随着历史帧数的增加而线性增长。而GDFusion采用RNN式的单帧历史状态,显存占用保持恒定且极低,却能有效利用所有历史信息,在性能上甚至超越了使用更多历史帧的SOLOFusion。

四、总结
GDFusion这篇工作为自动驾驶中的时序信息利用提供了一个全新的、极具启发性的视角。它不仅仅是提出了一种新方法,更是:
系统性地指出了当前时序融合研究的盲区,挖掘了场景、运动、几何三个维度的重要线索。
提供了一个优雅的统一理论框架,通过“梯度下降”的视角,将异构信息的融合变得简单、可解释且高效。
在实践中取得了性能和效率的双重突破,特别是在大幅降低显存占用方面的表现,使其具备了巨大的工业应用潜力。
我们有理由相信,这种“重新思考”的精神,以及将复杂过程回归到优化本质的思路,将为未来的自动驾驶感知技术乃至计算机视觉领域带来更多的可能性。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com