理想DrivingScene:仅凭两帧图像即可实时重建动态驾驶场景

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Qirui Hou等

编辑 | 自动驾驶之心

一、研究背景与挑战

自动驾驶系统的安全性和可靠性高度依赖4D动态场景重建(即3D空间+时间维度的实时、高保真环境感知)。当前行业面临两大核心矛盾:

  1. 传感器成本与效率的平衡:传统多模态方案依赖LiDAR、RaDAR等设备,虽精度高但成本昂贵;纯视觉方案(仅用摄像头)虽具备成本优势,却需解决“稀疏视角+动态物体”带来的重建难题——如何从360度环视相机的连续帧中,实时输出几何准确、视觉真实的大尺度动态场景。

  2. 现有渲染技术的局限:神经渲染方法(如NeRF、3D高斯溅射3DGS)在静态场景重建(如StreetGaussian、DrivingGaussian)中表现出色,但受限于“逐场景离线优化”范式,无法满足自动驾驶的实时性需求;而面向动态场景的方案(如EmerNeRF)同样存在离线问题,端到端动态建模方法(如Driv3R)虽尝试在线重建,却因未解耦“静态场景基础”与“动态物体运动”,不仅计算负担重,还会导致重建细节丢失、稳定性差(如动态物体重影、模糊)。

此外,静态前馈方案(如DrivingForward、pixelSplat)虽实现了在线推理,但因假设“场景无动态”,面对行驶车辆、行人等移动目标时会产生严重伪影,难以适配真实驾驶场景。

二、核心创新点

哈尔滨工业大学联合理想汽车等研究团队通过三大关键设计突破现有瓶颈,实现“实时性+高保真+多任务输出”的统一:

  1. 静到动两阶段训练范式:先从大规模数据中学习鲁棒的静态场景先验(如建筑、道路等刚性结构),冻结静态网络后再训练动态模块,彻底解决端到端训练的不稳定性,同时降低动态建模的复杂度。

  2. 混合共享架构的残差流网络:设计“共享深度编码器+单相机解码器”结构——共享编码器学习通用运动先验,轻量化单相机解码器适配不同相机的内外参,仅预测“动态物体的非刚性运动残差”(而非完整运动场),兼顾跨视角尺度一致性与计算效率。

  3. 纯视觉在线前馈框架:仅输入两帧连续环视图像,即可实时输出3D高斯点云、深度图、场景流等多任务结果,无需离线优化或多模态传感器,适配自动驾驶的在线感知需求。

三、相关工作梳理

静态驾驶场景重建

  • 代表方案:DrivingForward、pixelSplat、MVSplat、DepthSplat

  • 核心特点:基于3DGS或多视图立体匹配(MVS),采用前馈推理实现静态场景的快速重建,可处理稀疏环视视角。

  • 不足:均假设场景无动态,面对移动车辆、行人时会出现重影、几何偏移等伪影,无法适配真实驾驶场景的动态性。

动态驾驶场景重建

  • 代表方案:Driv3R、EmerNeRF

  • 核心特点:Driv3R采用端到端架构建模4D动态,但未解耦静动态成分,模型参数大(2.512GB)、训练耗时(约7.5天)、推理慢(0.71s/帧);EmerNeRF通过自监督实现时空分解,但依赖逐场景离线优化,无法满足实时性。

3D高斯溅射(3DGS)衍生方法

  • 代表方案:StreetGaussian、DrivingGaussian

  • 核心特点:将3DGS应用于城市/驾驶场景,提升静态场景的渲染质量与效率。

  • 不足:均为离线优化范式,需针对每个场景单独训练,无法支持自动驾驶的在线感知任务。

四、主要技术方案

整体框架如figure 2所示:输入两帧连续环视图像,先通过静态模块生成3D高斯表示的静态场景,再通过残差流网络预测动态运动,最终融合生成4D动态场景。

静态场景几何与外观建模

以3D高斯溅射(3DGS)为场景表示核心,每个高斯基元定义为  ,其中:

  • :3D空间均值(位置);

  • :协方差矩阵(形状);

  • :不透明度;

  • :球谐函数(SH)系数(外观)。

设计两个前馈网络实现高斯参数的直接预测:

  1. 深度网络(D):输入环视图像与相机姿态,输出逐像素深度图,进而计算所有高斯基元的  (位置信息);

  2. 高斯参数网络(P):输入图像特征与深度特征,推理   等剩余参数。

所有相机视角的高斯基元通过已知外参转换到世界坐标系,拼接为统一静态场景表示。该过程无需3D空间去重或融合,而是依赖可微渲染器在视图合成时自动抑制遮挡、不一致的高斯基元(使其对最终像素颜色贡献最小)。

基于残差场景流的动态建模

为捕捉动态物体运动,提出残差流网络(R),将总运动场分解为“刚性运动( )+非刚性残差运动( )”:

  • :由预测深度与相机姿态计算,对应“自车运动引发的全局场景运动”(如车辆前进导致的背景平移);

  • :由残差流网络预测,仅建模“动态物体的非刚性运动”(如其他车辆变道、行人行走)。

残差流网络架构如figure 3所示,采用“粗到细”优化策略:

  • 共享深度编码器:提取多尺度通用运动特征;

  • 单相机金字塔解码器:从低分辨率到高分辨率迭代优化流场,每个分辨率的预测作为下一级的初始估计,有效处理大位移运动;

  • 输入适配层:针对不同相机的内外参调整输入特征,确保跨视角的尺度一致性。

两阶段训练策略与损失函数

阶段1:静态网络训练(冻结前)

仅训练深度网络(D)与高斯参数网络(P),损失函数为:

  • :多视图一致性损失,通过 photometric 重投影误差确保不同视角的几何一致性;

  • :视差图平滑损失,惩罚深度图中的大梯度,避免几何碎片化;

  • :渲染损失,最小化渲染图与真值图的差异,公式为:

其中   为像素级损失,  为感知损失(权重0.05),确保视觉保真度。

阶段2:残差流网络训练(静态网络冻结)

仅训练残差流网络(R),损失函数为:

  • :流场一致性损失,通过“前向-后向流场校验”确保运动估计的几何合理性;

  • :流场扭曲损失,对“由总运动场扭曲的源图像”与目标图像施加一致性约束,公式为:

其中   为扭曲图像, ,结合L1(像素级)、SSIM(结构相似性)、LPIPS(感知)损失,强化运动与渲染的耦合一致性;

  • :与阶段1一致,确保动态场景的渲染质量。

五、实验验证与结果分析

实验设置

  • 数据集:nuScenes(700个训练场景、150个验证场景),图像分辨率352×640;

  • 硬件:PyTorch框架,NVIDIA RTX5090 GPU(32GB);

  • 训练参数:Adam优化器(学习率1e-4),阶段1(6轮)、阶段2(6轮);

  • 评价指标:novel view synthesis(PSNR、SSIM、LPIPS)、深度预测(Abs Rel、Sq Rel、RMSE)、效率(推理时间、VRAM占用、模型参数)。

定量结果(对比主流方案)

Novel View Synthesis

在nuScenes验证集上,该方法全面超越前馈类基线:

  • PSNR达28.76,较Driv3R(26.10)提升2.66dB,较DrivingForward(26.06)提升2.7dB;

  • SSIM达0.895,显著高于Driv3R(0.808)与DrivingForward(0.781);

  • LPIPS达0.113(越低越好),虽略高于Driv3R(0.084),但综合PSNR、SSIM仍体现更优的渲染保真度。

深度预测

几何准确性优于Driv3R:

  • Abs Rel(绝对相对误差)0.227 vs 0.234;

  • Sq Rel(平方相对误差)2.195 vs 2.279;

  • RMSE(均方根误差)7.254 vs 7.298,验证静态先验与动态残差结合的几何建模有效性。

5.2.3 效率与模型复杂度
  • 推理速度:0.21s/帧(6路环视图像),比DrivingForward(0.34s)快38%,比Driv3R(0.71s)快70%;

  • 训练成本:训练时间约5天,VRAM占用27.3GB,远低于Driv3R(7.5天、175.5GB);

  • 模型大小:参数0.117GB,仅为Driv3R(2.512GB)的4.6%、DrivingForward(0.173GB)的67.6%,体现轻量化优势。

定性结果

  • 动态物体重建(figure 4):DrivingForward因静态假设,对移动车辆、行人产生明显重影;Driv3R虽能捕捉动态,但细节模糊;该方法可生成边缘清晰、时序一致的动态物体重建结果。

  • 运动场分解(figure 5):刚性流( )准确捕捉自车运动引发的全局背景平移,全流( )可清晰定位动态物体(如侧方行驶车辆),验证残差流网络的动态建模能力。

消融实验

验证核心设计的必要性:

  1. 残差流网络:去除后模型退化为“静态版”,PSNR、SSIM显著下降,证明动态建模对真实场景重建的关键作用;

  2. 两阶段训练:替换为端到端训练后,模型无法学习尺度一致的几何,渲染质量大幅退化,凸显静态先验的基础价值;

  3. 流场扭曲损失( :去除后渲染图与动态运动的一致性下降,验证该损失对多任务协同的约束作用。

参考

[1]DrivingScene: A Multi-Task Online Feed-Forward 3D Gaussian Splatting Method for Dynamic Driving Scenes

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

基于数据驱动的 Koopman 算子的递归神经网络模型线性化,用于纳米定位系统的预测控制研究(Matlab代码实现)内容概要:本文围绕“基于数据驱动的 Koopman 算子的递归神经网络模型线性化,用于纳米定位系统的预测控制研究”展开,提出了一种结合数据驱动方法与Koopman算子理论的递归神经网络(RNN)模型线性化方法,旨在提升纳米定位系统的预测控制精度与动态响应能力。研究通过构建数据驱动的线性化模型,克服了传统非线性系统建模复杂、计算开销大的问题,并在Matlab平台上实现了完整的算法仿真与验证,展示了该方法在高精度定位控制中的有效性与实用性。; 适合人群:具备一定自动化、控制理论或机器学习背景的科研人员与工程技术人员,尤其是从事精密定位、智能控制、非线性系统建模与预测控制相关领域的研究生与研究人员。; 使用场景及目标:①应用于纳米级精密定位系统(如原子力显微镜、半导体制造设备)中的高性能预测控制;②为复杂非线性系统的数据驱动建模与线性化提供新思路;③结合深度学习与经典控制理论,推动智能控制算法的实际落地。; 阅读建议:建议读者结合Matlab代码实现部分,深入理解Koopman算子与RNN结合的建模范式,重点关注数据预处理、模型训练与控制系统集成等关键环节,并可通过替换实际系统数据进行迁移验证,以掌握该方法的核心思想与工程应用技巧。
基于粒子群算法优化Kmeans聚类的居民用电行为分析研究(Matlb代码实现)内容概要:本文围绕基于粒子群算法(PSO)优化Kmeans聚类的居民用电行为分析展开研究,提出了一种结合智能优化算法与传统聚类方法的技术路径。通过使用粒子群算法优化Kmeans聚类的初始聚类中心,有效克服了传统Kmeans算法易陷入局部最优、对初始值敏感的问题,提升了聚类的稳定性和准确性。研究利用Matlab实现了该算法,并应用于居民用电数据的行为模式识别与分类,有助于精细化电力需求管理、用户画像构建及个性化用电服务设计。文档还提及相关应用场景如负荷预测、电力系统优化等,并提供了配套代码资源。; 适合人群:具备一定Matlab编程基础,从事电力系统、智能优化算法、数据分析等相关领域的研究人员或工程技术人员,尤其适合研究生及科研人员。; 使用场景及目标:①用于居民用电行为的高效聚类分析,挖掘典型用电模式;②提升Kmeans聚类算法的性能,避免局部最优问题;③为电力公司开展需求响应、负荷预测和用户分群管理提供技术支持;④作为智能优化算法与机器学习结合应用的教学与科研案例。; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,深入理解PSO优化Kmeans的核心机制,关注参数设置对聚类效果的影响,并尝试将其应用于其他相似的数据聚类问题中,以加深理解和拓展应用能力。
在大数据技术快速发展的背景下,网络爬虫已成为信息收集与数据分析的关键工具。Python凭借其语法简洁和功能丰富的优势,被广泛用于开发各类数据采集程序。本项研究“基于Python的企查查企业信息全面采集系统”即在此趋势下设计,旨在通过编写自动化脚本,实现对企查查平台所公示的企业信用数据的系统化抓取。 该系统的核心任务是构建一个高效、可靠且易于扩展的网络爬虫,能够模拟用户登录企查查网站,并依据预设规则定向获取企业信息。为实现此目标,需重点解决以下技术环节:首先,必须深入解析目标网站的数据组织与呈现方式,包括其URL生成规则、页面HTML架构以及可能采用的JavaScript动态渲染技术。准确掌握这些结构特征是制定有效采集策略、保障数据完整与准确的前提。 其次,针对网站可能设置的反爬虫机制,需部署相应的应对方案。例如,通过配置模拟真实浏览器的请求头部信息、采用多代理IP轮换策略、合理设置访问时间间隔等方式降低被拦截风险。同时,可能需要借助动态解析技术处理由JavaScript加载的数据内容。 在程序开发层面,将充分利用Python生态中的多种工具库:如使用requests库发送网络请求,借助BeautifulSoup或lxml解析网页文档,通过selenium模拟浏览器交互行为,并可基于Scrapy框架构建更复杂的爬虫系统。此外,json库用于处理JSON格式数据,pandas库则协助后续的数据整理与分析工作。 考虑到采集的数据规模可能较大,需设计合适的数据存储方案,例如选用MySQL或MongoDB等数据库进行持久化保存。同时,必须对数据进行清洗、去重与结构化处理,以确保其质量满足后续应用需求。 本系统还需包含运行监控与维护机制。爬虫执行过程中可能遭遇网站结构变更、数据格式调整等意外情况,需建立及时检测与自适应调整的能力。通过定期分析运行日志,评估程序的效率与稳定性,并持续优化其性能表现。 综上所述,本项目不仅涉及核心爬虫代码的编写,还需在反爬应对、数据存储及系统维护等方面进行周密设计。通过完整采集企查查的企业数据,该系统可为市场调研、信用评价等应用领域提供大量高价值的信息支持。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值