
点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享复旦大学ICCV2025中稿的最新工作!BezierGS:基于贝塞尔曲线高斯泼溅的动态城市场景重建!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Zipei Ma等
编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解
ICCV 2025中稿的最新工作!自动驾驶场景的真实重建对于开发闭环仿真至关重要。大多数现有方法依赖于目标的位姿标注,使用这些位姿来重建动态目标并在渲染过程中实现动态重建。这种对高精度目标标注的依赖限制了大规模和广泛场景的重建。为了解决这一挑战,复旦大学的团队提出了Bezier curve Gaussian splatting(BezierGS),该方法使用可学习的贝塞尔曲线表示动态目标的运动轨迹。这种方法充分利用了动态目标的时间信息,并通过可学习的曲线建模自动校准位姿误差。通过引入对动态目标渲染的额外监督和曲线间一致性约束,实现了合理且准确的场景元素分离和重建。在Waymo开放数据集和nuPlan基准上的大量实验表明,BezierGS在动态和静态场景目标重建以及新视角重建方面均优于最先进的替代方法。
总结来说,这篇文章的亮点以及未来可扩展方向如下:
构建一个高质量街景世界,供自驾模型在其中训练、探索,减少数据采集的成本;
减少对bounding box精确性的依赖,目前业界以及开源自驾数据集采集的准确性不是很高,bounding box的标注不精确;
这篇是对自驾世界的学习与探索,未来会探索一个真正的自驾世界模型,该工作只能实现轨迹内插,无法轨迹外插。
论文链接:https://arxiv.org/abs/2506.22099
代码代码:https://github.com/fudan-zvg/BezierGS
引言
对动态三维街道场景的建模是现代自动驾驶的基础,因为它能够为诸如感知、预测和运动规划等任务提供真实且可控的仿真。
随着需要实时传感器反馈的端到端自动驾驶系统的兴起,现实世界仿真的闭环评估需求变得更加迫切。高质量的场景重建为闭环评估创建了仿真环境,同时使得以安全且经济高效的方式仿真关键极端场景成为可能。
尽管在实现小规模场景的真实感重建方面取得了令人鼓舞的结果,但驾驶场景却是大规模且高度动态的,这使得有效的三维场景建模更具挑战性。为了解决这些挑战,大多数现有方法依赖于手动标注的动态目标位姿,以区分静态背景和移动目标。通常动态目标在其各自的中心规范空间中进行重建,并根据已知位姿在渲染过程中放置到背景场景空间中。然而,动态目标的手动标注总是存在误差和遗漏,限制了这些方法在不同数据集中的多样化场景中的适用性。
其他不需要动态标注的方法利用自监督学习方法来学习动态目标的运动。S3Gaussian使用时空分解网络来隐式地建模目标的运动轨迹,这给优化和建模这些轨迹带来了挑战。PVG通过拼接具有周期振动的片段来构建长轨迹。然而,周期振动模式和透明度衰减并不符合现实世界的运动,而且分段轨迹使得难以充分利用单个目标随时间的一致性。
为了克服上述局限性,本文介绍了一种新的动态场景表示方法,称为贝塞尔曲线高斯Splatting(BezierGS),以实现自动驾驶应用的高保真新视角合成性能。基于高效的三维高斯渲染技术,该方法使用可学习的贝塞尔曲线显式地建模场景中动态高斯基元的运动轨迹和速度,而静态三维高斯基元则用于构建背景信息。可学习的轨迹曲线可以补偿动态目标标注中的误差。此外,显式的曲线轨迹有助于优化并充分挖掘同一目标在不同时间戳之间的时间一致性。我们根据重建的目标对动态高斯基元进行分组,并引入了一种分组的曲线间一致性损失,有效地利用了同一目标的几何约束。此外,我们还引入了对动态高斯基元渲染的额外监督,以增强动态目标的重建,促进后续的自动驾驶场景编辑任务。
我们的主要贡献总结如下:
提出了用于大规模动态城市场景重建的贝塞尔曲线高斯渲染(BezierGS)。通过显式的可学习贝塞尔曲线轨迹建模,我们优雅地表示了动态场景,消除了街景重建中对动态目标标注精度的依赖;
开发了一种全新的组内曲线一致性损失,将构成同一目标的高斯基元的轨迹联系起来,有效地利用了同一目标的几何约束;
在两个大规模基准数据集(Waymo和nuPlan)上进行了广泛的实验,结果表明,BezierGS在场景重建和新视角合成方面均优于所有先前的最先进替代方法。
相关工作回顾
用于城市场景重建的NeRF
自从NeRF问世以来,神经表示已成为三维重建和新视角合成的基础支柱。许多研究将基于NeRF的方法应用于城市场景,使得传感器能够在大型且动态的场景中实现逼真的新视角渲染。NSG采用神经场景图来分解动态场景,而SUDS则使用多分支哈希表引入了一种四维场景表示方法。自监督方法如EmerNeRF和RoDUS有效地解决了动态场景的挑战。然而,基于NeRF的方法的慢速渲染速度对其在下游任务中的应用带来了显著挑战和高成本。相比之下,BezierGS利用高效的三维高斯基元重建城市场景,在保持高渲染速度的同时实现了优越的渲染质量。
用于城市场景重建的3DGS
最近的研究利用了高效的3DGS技术进行城市场景重建,在重建质量和渲染速度方面都取得了显著提升。S3Gaussian和PVG采用自监督学习方法推断动态目标的轨迹。具体来说,S3Gaussian使用时空分解网络隐式地建模目标的运动轨迹,而PVG通过拼接具有周期振动的片段构建长轨迹。然而,这些轨迹建模方法仍然缺乏精度。与此同时,将场景显式分解为不同实体已成为一种普遍做法,如Street Gaussians、DrivingGaussian、HUGS和OmniRe等研究所示。然而,这些方法严重依赖手动标注框的准确性,当标注不精确时,其重建性能会显著下降。
算法详解
算法pipeline如图2所示。
预备知识
3DGS
3DGS利用一组三维高斯基元来表示场景。通过基于tile的光栅化过程,3DGS利用高斯基元的实时alpha混合实现场景的重建。场景由一组高斯基元建模,每个基元包含以下属性:均值位置 、旋转 (表示为四元数)、各向异性缩放因子 、不透明度 以及依赖于视图的颜色 (表示为球谐函数(SH)系数)。
为了确定像素颜色 ,首先根据其与相机中心的距离对贡献该像素的高斯基元(按 索引)进行排序,然后进行alpha混合:
这里,不透明度 计算为:
其中, 是图像平面上的二维像素位置, 是第i个高斯的投影中心, 表示二维投影协方差矩阵。
贝塞尔曲线
贝塞尔曲线是计算机图形学和计算几何中的基本参数曲线,由 个控制点 定义,并作为参数 的函数表达如下:
其中, 表示给定参数 时曲线的位置, 表示第i个控制点的位置, 是n次伯恩斯坦基多项式,定义为:
参数 在区间 内变化,其中 对应第一个控制点 ,而 对应最后一个控制点 。曲线构建为控制点的加权和,伯恩斯坦基多项式决定每个控制点在给定 时的影响。
Bezier curve Gaussian splatting
在三维街道场景中,静态和动态场景表现出不同的运动特征,因此需要使用不同的高斯基元来表示它们。对于静态背景,由于背景在所有帧中保持一致,我们可以通过全局优化实现稳定的三维表示,而不受时间变化的影响。我们使用3DGS进行重建,其中每个高斯基元由属性 表征,这在第3.1节中有详细说明。
对于动态前景,我们使用可学习的贝塞尔曲线建模高斯基元的轨迹。现有的基于框的方法严重依赖于框(方向和位置)的准确性,这可能是一个限制因素。对于其他使用自监督学习来建模动态目标运动轨迹的方法,很难同时确保轨迹的准确性和训练效率。相比之下,我们的可学习贝塞尔曲线消除了对手动标注准确性的依赖,同时有效地表示了完整的轨迹。
由于场景中不同目标遵循不同的运动轨迹,我们使用单独的一组高斯基元表示每个目标。具体来说,高斯基元的轨迹定义为其对应目标中心和相对于该中心的偏移量之和,其中偏移量以世界坐标系表示。这种表示方法使我们能够通过约束偏移量来控制组内不同高斯基元的轨迹一致性。为了区分不同的目标,我们引入了一个额外的属性 ,它表征了特定目标的高斯基元。
目标中心的轨迹使用可学习的贝塞尔曲线建模,由一系列控制点 控制。给定 ,目标 的中心 定义为:
为了建模高斯基元相对于目标中心的偏移轨迹,我们也使用由一组控制点控制的可学习贝塞尔曲线。对于特定的高斯基元,偏移轨迹由控制点 定义,其中 表示第i个控制点的位置。偏移量 在 处给出为:
目标沿贝塞尔曲线的运动随时间非均匀变化,因此有必要建模其速度,这可以通过时间到贝塞尔映射在时间戳 和贝塞尔参数 之间隐式表示。此外,对于每个目标 ,时间到贝塞尔映射会有所不同。为了捕捉这种变化,我们始终使用额外的贝塞尔曲线来建模时间到贝塞尔映射 。总之,高斯基元的运动轨迹可以表述为:
同样,像静态部分一样,我们的动态目标也具有属性 。
给定记录的时间戳 ,我们使用公式(7)计算动态高斯基元的位置 并将它们与静态高斯基元组合。最终的RGB图 、深度图 和不透明度图 通过公式(1)中的alpha混合技术实现。
由于3DGS是在欧几里得空间中定义的,因此不适合建模天空等遥远区域。为了解决这个问题,我们使用一个高分辨率立方体贴图将视图方向映射到天空颜色 作为天空纹理。通过将天空图像 与渲染的高斯颜色 合成,最终渲染结果为:
我们注意到基于box的方法是贝塞尔GS的一个特例,其中偏移量在目标坐标系中定义并随时间保持不变,而框的方向和翻译保持固定。此外,我们可以使用分段贝塞尔曲线表示长轨迹,作为PVG中周期振动特征的更高层次替代方案。通过扩展高斯基元的动态表示能力,我们的模型灵活且准确地建模轨迹,实现了最先进的重建性能。
损失函数
总体损失公式如下:
其中 和 分别代表L1和SSIM损失,用于监督RGB渲染质量。深度损失 被引入以增强几何感知,并定义为: ,其中 是由将LiDAR点投射到相机平面获得的稀疏逆深度图, 表示渲染深度图的逆。此外进一步引入 以减少天空区域的不透明度:
其中 是由Grounded-SAM模型预测的二进制天空掩码。这一项鼓励渲染的不透明度图 在天空区域内最小化,确保天空仅使用天空纹理建模。
曲线间一致性损失
在优化过程中,由于高斯基元的自由度较高,单个基元可能会不受控地偏离其所代表的动态目标。这导致在不同时间步长下,目标的不同区域由不同的基元表示,从而在从新视角渲染时产生不一致,如图3所示。为了解决这个问题,必须增强高斯基元的时间几何一致性。
对于场景中的动态目标,当它们作为一个整体移动时,特定部分的轨迹与整个目标的轨迹之间的差异保持在有限范围内。具体而言,对于如车辆这样的刚性结构,轨迹偏差的幅度倾向于保持恒定。因此,通过确保高斯基元偏移轨迹 随时间的一致性,可以保持高斯基元轨迹 与其对应的目标中心轨迹 之间的相似性,从而保持动态高斯基元表示目标部分的时间连贯性。由于当贝塞尔曲线参数 设置为0或1时,高斯基元与第一个和最后一个控制点 重合,因此在给定时间戳 下的偏移量 可以通过偏移曲线的第一个和最后一个控制点的平均幅度进行约束:
这个损失函数有效抑制了过度的局部几何变化,增强了整体结构的一致性和稳定性。
动态渲染损失
由于方程(1)中描述的alpha混合机制,动态和静态高斯基元之间的相互作用可能会引入相互干扰,使得难以分别准确建模场景中的动态和静态元素。为了解决这个问题,我们引入了对动态高斯基元渲染结果的额外监督,确保动态场景目标的渲染仅由动态高斯基元贡献。
为了获得场景中动态目标的准确掩码,我们首先将手动或自动标记的动态3D框投影到图像中以提取动态区域,然后使用Grounded-SAM获取每个区域内的动态mask,标记为 。我们使用 提取真实相机图像的动态目标,然后用于监督动态高斯基元的渲染RGB图:
其中, 和 分别表示带掩码的地面真实相机图像和动态高斯基元渲染RGB图的L1和SSIM损失。
为了进一步增强动态和静态场景目标之间的分离,我们引入了一个额外的约束,以确保动态高斯基元的渲染alpha图 与相机图像中的动态部分掩码 对齐:
通过结合这两个损失函数,我们得到了动态渲染损失:
这个损失函数确保动态场景目标的渲染仅由动态高斯基元贡献,从而实现了动态和静态场景目标之间更彻底的分离,提高了从新视角合成时的渲染质量。
速度损失
为了对动态目标的重建施加多维约束,我们增加了一个额外的约束条件,即动态高斯基元渲染的速度图 ,确保高斯基元的运动趋势与动态目标的趋势一致,从而提高动态表示的合理性。
从方程(3)可知,贝塞尔曲线上位置 关于参数 的导数为:
其中,
由于目标中心轨迹 和偏移量 都使用贝塞尔曲线建模,因此在给定时间戳 下的高斯基元速度 为:
随后,使用以下方式渲染动态高斯基元的速度图 :
为了确保动态高斯基元的运动严格限定在动态区域 内,我们引入以下损失函数:
通过合理控制动态高斯基元的速度,我们隐式地防止动态高斯基元漂移到静态区域,确保它们的运动限定在动态目标内部,从而进一步增强动态表示的可靠性。
实验结果分析
实验设置
数据集
我们在Waymo开放数据集和nuPlan基准上进行实验,这两个数据集的帧率为10 Hz。值得注意的是,nuPlan是世界上首个大规模的自动驾驶规划基准。然而,由于其手动标注的不准确性,传统的基于框的方法难以实现高质量的重建,限制了基于重建的闭环仿真的发展。通过在nuPlan上展示高质量的重建和新视角合成,我们进一步验证了我们的方法消除了对城市场景重建中目标标注精度的依赖。对于Waymo,我们选择了Street Gaussians和PVG所选择的12个序列。对于nuPlan,我们选择了由NAVSIM划分的6个序列。
与Street Gaussians和OmniRe一致,我们将序列中的每第4张图像用作测试帧,其余图像用于训练。
基线方法
我们将我们的方法与最先进的方法进行了比较,包括基于框的方法HUGS、Street Gaussians、OmniRe以及基于动态高斯基元的方法DeformableGS、PVG。
实现细节
在本工作中,我们专注于标准立方贝塞尔曲线(n=3),它因其在轨迹建模中的有效性而被广泛认可。所有实验均在单块NVIDIA RTX A6000上运行30,000次迭代。我们保持学习率与原始3DGS实现相似,并将正则化系数设置为:λr=0.2,λd=1.0,λsky o=0.05,λicc=0.01,λdr=0.1,λv=1.0。有关实现的更多细节,请参见第6节。
与SOTA对比
Waymo上的结果
除了标准的PSNR、SSIM和LPIPS指标外,我们还通过计算Dyn-PSNR来评估动态区域的保真度,该指标专门测量在2D图像平面上投影的真实3D框内的PSNR。这一额外评估提供了对动态元素重建的更精确评估。如表1所示,BezierGS在所有评估指标上均优于最先进的方法。具体而言,在新视角合成方面,我们的模型能够有效生成之前未见过的时间戳下的高质量视图,显著超越所有竞争方法,PSNR提高了1.87 dB,SSIM提高了0.014,LPIPS降低了8.00%。此外,我们的方法在Dyn-PSNR上也表现优异,取得了2.66 dB的显著提升,进一步验证了其在渲染动态内容方面的有效性。
我们在图4中展示了与DeformableGS、Street Gaussians、OmniRe和PVG的定性比较。值得注意的是,DeformableGS无法分离动态目标。为了解决这个问题,我们利用标注的框提取动态区域。如图4所示,DeformableGS难以有效表示动态目标,而PVG未能有效分离静态和动态目标。Street Gaussians和OmniRe在捕捉动态目标方面存在局限性,特别是在动态元素周围导致明显的模糊。
相比之下,我们的方法能够以高保真度有效地重建静态和动态元素,同时实现静态和动态目标之间的清晰分离。
nuPlan上的结果
nuPlan基准提供的框质量不佳,导致基于框的方法的渲染质量显著下降。相比之下,我们的BezierGS使用可学习的贝塞尔曲线建模动态元素,能够自动纠正位姿误差,从而提高重建和新视角合成的质量。在新视角合成方面,我们的模型能够有效捕捉场景并生成高保真渲染,PSNR提高了3.04 dB,SSIM提高了0.036,LPIPS降低了16.35%,Dyn-PSNR提高了1.22 dB。图5中的定性比较进一步说明了我们的方法在处理nuPlan基准中的复杂动态场景方面的有效性。
消融实验
在表2中,我们通过测量其对Waymo中新视角合成指标的影响来验证我们方法的关键目标的有效性。我们看到(a) 曲线间一致性损失增强了建模动态目标的能力并消除了浮点现象,显著提高了新视角合成的性能;(b) 动态渲染损失鼓励动态目标仅由动态高斯基元建模,从而实现更彻底的前景-背景分离;(c) 速度损失进一步约束了动态高斯基元的漂移,防止干扰静态高斯基元;(d) 虽然时间到贝塞尔映射带来的改进相对较小,但它是建模具有高度复杂轨迹的场景中目标所必需的。
贝塞尔的有效性
我们将动态轨迹建模替换为MLP(DeformableGS)或正弦轨迹(PVG),同时保持背景重建使用3DGS及除曲线间一致性损失外的所有损失。如图7和表2(e)(f)所示,贝塞尔曲线能够提供更显式和合理的轨迹表示。
结论
我们提出了贝塞尔曲线高斯点绘(BezierGS),一种用于动态城市街道场景重建的显式场景表示方法。通过使用显式可学习的贝塞尔曲线建模动态目标的运动轨迹,我们的模型可以自动纠正位姿误差,从而消除对手动标注精度的依赖。引入的曲线间一致性约束增强了动态高斯基元的时间和几何一致性。通过对动态目标渲染的额外监督,我们的方法实现了场景元素的合理和准确分离与重建。我们的方法在Waymo开放数据集和nuPlan基准上显著优于最先进的方法。
这里也推荐下平台打造的《面向科研&落地的3DGS全栈实战教程》,课程全面覆盖了2DGS/3DGS/4DGS和混和GS!
扫码加入学习!

自动驾驶之心
论文辅导来啦

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com

被折叠的 条评论
为什么被折叠?



