世界模型再进化!MiLA:突破智驾视频生成壁垒(南大&小米)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享南京大学和小米汽车最新的世界模型工作—MiLA!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『世界模型』技术交流群

论文作者 | Haiguang Wang等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

近年来,数据驱动技术显著推动了自动驾驶系统的发展,但对稀有且多样化训练数据的需求仍是一大挑战,需要大量设备和人力投入。世界模型(World Models)通过预测并生成未来环境状态,为合成标注视频数据提供了有效解决方案。然而,现有方法难以在动态场景中生成长期一致的视频且不积累误差。为此,我们提出MiLA——一种新型框架,能够生成长达1分钟的高保真长期视频。MiLA采用粗到精(修正)方法 (Coarse-to-Re(fine) approach),既稳定视频生成过程,又修正动态物体的失真问题。此外,我们引入时间渐进去噪调度器 (Temporal Progressive Denoising Scheduler)和联合去噪与修正流 (Joint Denoising and Correcting Flow)模块以提升生成视频质量。在nuScenes数据集上的大量实验表明,MiLA在视频生成质量上达到SOTA。

  • 项目主页:https://github.com/xiaomi-mlab/mila.github.io

文章简介

数据驱动方法在全自动驾驶系统中展现出显著优势,但构建鲁棒性系统需收集长尾和稀有场景数据,这需要持续投入大量设备与人力资源。为此,世界模型应运而生,其通过处理历史观测数据和人类指令生成场景表征,可合成一致的序列数据,有效解决分布外(out-of-distribution)挑战。

近年来,结合规划信号生成高质量视频的世界模型框架取得显著进展,但长期视频生成仍面临两大挑战:

  1. 误差累积问题 :理想情况下需同时生成所有帧,但计算资源与内存需求过高。现有方法多采用分批次生成策略,基于先前生成帧递归预测新帧,导致长期视频中静态背景与动态物体质量下降。

  2. 场景一致性维持 :仅依赖初始时刻的条件帧和场景描述时,首帧的控制力随时间衰减,导致后续帧场景退化与连贯性丢失。尽管现有工作尝试引入额外控制信号(如高精地图、3D框),但如何在无额外信号下保持时空一致性仍待探索。

为此,我们提出MiLA——基于潜在扩散模型 (Latent Diffusion Models, LDM)的鲁棒视频生成框架,仅依赖简单场景描述或路径点(waypoints)控制信号,生成长期高保真视频(图1对比了MiLA与Vista的生成效果)。 具体而言,MiLA采用分治生成框架 (Divide-and-Conquer):

  • 粗生成阶段 (Coarse):生成低帧率锚定帧(low FPS anchor frames);

  • 精修正阶段 (Re(fine)):通过插值模型生成高帧率视频,同时修正锚定帧伪影。

进一步地,我们提出:

  • 联合去噪与修正流(JDC) :同步优化锚定帧与插值帧,解决动态物体失真问题;

  • 时间渐进去噪调度器(TPD) :增强时间信息传递,提升视频整体保真度。 主要贡献如下:

  • 提出MiLA框架,通过粗到精流程生成长达1分钟的高保真驾驶场景视频;

  • 设计JDC模块修正锚定帧伪影,并通过TPD模块优化时间一致性;

  • 在nuScenes数据集上验证MiLA在长短期视频生成任务中均达到SOTA性能。

相关工作回顾

世界模型

世界模型是指能够学习模拟环境并预测其动态变化的生成模型,使得在模拟空间中训练智能体成为可能。这类模型广泛应用于游戏仿真、具身智能体以及自动驾驶场景。在自动驾驶领域,世界模型通常根据预测形式分为两类:

  1. 3D场景表征预测:Vidar和LidarDM通过预测未来激光雷达点云来推断几何信息;其他工作则基于未来占用状态(occupancy prediction)构建世界模型。

  2. RGB视频生成:由于数据可扩展性和易获取性,基于视觉的世界模型范式更受关注。DriveDreamer及其扩展工作利用高精地图、3D边界框和初始参考帧预测未来状态;ADriver-I通过自回归生成策略结合路径点预测模块;Vista提出了高分辨率长期生成框架,但仍在长视频保真度上存在局限。

长期视频生成

现有长期视频生成方法可分为两类(图2):

  1. 自回归生成范式:通过递归生成新批次帧,但误差累积问题未被有效解决。近期工作提出异步扩散流程,将批次生成分解为逐帧生成,但未根本解决误差传播。

  2. 分治生成范式:通过锚定帧生成与插值分离的策略提升效率。Nuwa-XL改进模型结构以增强性能;近期研究探索异步时序采样策略,但未解决锚定帧伪影问题。

关键挑战:锚定帧的稀疏性导致时序依赖减弱,表现为动态物体运动不稳定与视频平滑性下降(图5)。现有方法未充分关注锚定帧伪影对整体质量的影响,这为长期视频生成带来潜在瓶颈。

方法详解

模型概述

我们采用基于DiT(的视频生成模型Open-Sora作为MiLA的主干架构。如图3所示,MiLA基于输入的参考帧生成多视角未来帧,其中V、N、S分别表示视角数量、条件帧数和总噪声帧数。

灵活的条件嵌入
为通过路径点和相机参数引导生成,我们使用傅里叶嵌入(Fourier embedding)结合多层感知机(MLP)将条件参数编码为嵌入向量。具体而言,将相机参数与路径点集合与帧嵌入h_f融合:

多视角增强空间注意力
通过扩展DiT块的空间感受野以包含所有视角的图像块,实现多视角对齐生成:

其中Q、K、V为输入帧嵌入 的投影结果,维度为

预备知识:修正流(Rectified Flow)
修正流是一种基于常微分方程(ODE)的分布迁移方法,通过插值中间状态实现从初始分布x₀到目标分布x₁的转换:

在扩散模型中,x₀通常为高斯噪声(x₀~N(0,1)),公式可简化为:

通过预测速度场v(xₜ, t),最终目标可通过积分得到:

长期视频生成框架

图3展示了MiLA的“粗到精(修正)”生成流程:

  1. 粗生成阶段:采用分治策略生成低帧率锚定帧(low FPS anchor frames)。

  2. 精修正阶段:通过递归策略结合前一步的高帧率帧(high FPS)和锚定帧,插值生成完整视频。
    此设计增强了运动动态捕捉能力,同时修正锚定帧的伪影。

联合去噪与修正流(JDC)

分治框架依赖锚定帧保证结构一致性,但稀疏的时序分布会导致动态物体运动不稳定。为此,我们提出联合去噪与修正流模块,同步优化锚定帧与插值帧:

  1. 噪声分解:将锚定帧噪声分解为结构化与随机分量:

  1. 噪声添加:向预测锚定帧添加混合噪声:

通过推导噪声方差σ²(公式11),确保噪声分布符合标准扩散模型假设。

时间渐进去噪调度器(TPD)

为了提高整体视频的保真度,我们设计了一个特定的去噪调度器。我们的关键见解如图7b所示。通过单个去噪步骤,更接近条件帧的帧往往具有更好的保真度。这种现象提出了一个有趣的假设,是否有可能用更少的步骤预测更早的帧?基于这一假设,我们可以很容易地提出另一个假设。先前帧的更快揭示是否为后续帧提供了更详细的信息,从而提高了后续帧的生成质量。

为了正确利用这些观测值,我们设计了一个函数,将所有噪声帧集合的噪声时间帧索引s∈s和去噪时间戳t作为变量,并计算去噪调度系数。该功能应满足以下要求:

  • 一个去噪批次内的所有帧必须同时达到最终的去噪状态。

  • 早期帧在最初的几个步骤中会进行更大规模的降噪处理,并迅速达到几乎降噪的状态。

  • 尾部帧的去噪调度程序应遵循慢-快模式,在最后几个步骤中,其规模将显著提高。

其中s为归一化的时序索引(公式14),通过余弦函数实现非线性调度(图4b)。


损失函数

训练目标为最小化预测速度场v与真实流场y的差异:

其中m_s为锚定帧噪声掩码,y为真实帧与噪声帧的差异向量。

实验结果分析

实验设置

数据集与评估指标
所有实验均在nuScenes数据集上进行,该数据集包含700个训练场景和150个验证场景,场景覆盖波士顿和新加坡的驾驶环境,每个场景约20秒,包含360度高分辨率图像。
评估指标采用Frechet初始距离(FID)Frechet视频距离(FVD),数值越低表示生成质量越优。为全面评估多视角生成效果,扩展以下指标:

  • FIDfront/FVDfront:评估前视图视频质量;

  • FIDt0–t1s/FVDt0–t1s:评估从t₀到t₁秒时间段内的前视图生成质量。
    特征提取分别采用预训练的Inception-v3网络(输出2048维特征)和I3D网络。

评估结果

定性分析
图6展示了MiLA生成的多视角驾驶场景视频效果。与Vista相比,MiLA在细节保真度(如白色货车轮廓)和时空一致性上显著提升。放大视图(图6a)进一步验证了MiLA对动态物体的建模能力。

定量分析
表1对比了MiLA与其他方法在nuScenes验证集上的性能:

  • 多视角生成:MiLA的FIDmulti为3.0,FVDmulti为18.2,优于次优方法DriveDreamer-2(FIDmulti 4.9,FVDmulti 36.3);

  • 长视频生成(表2):在8–10秒区间,MiLA的FIDfront为42.6,显著低于Vista(71.0)。

长视频生成对比
图5对比了不同生成框架的效果:

  • 递归框架(Recurrent):长期生成中背景与动态物体质量下降;

  • 分治框架(Divide-and-Conquer):锚定帧伪影导致运动不连贯;

  • MiLA:通过修正流与渐进去噪,在保持结构一致性的同时提升动态流畅性。

消融实验

模块有效性验证(表4)

  • JDC模块:引入后FIDfront从9.1降至8.0,FVDfront从81.3降至63.6;

  • TPD调度器:进一步将FIDfront优化至5.5,FVDfront降至38.1。

噪声参数影响(图7)

  • α₁(锚定帧噪声比例):过高(α₁=0.8)导致结构失真,过低(α₁=0.2)修正效果不足,α₁=0.5为最优;

  • α₂(插值帧噪声比例):与α₁协同调整,平衡伪影抑制与动态保真度。

TPD调度器效果(表3)

  • 不同帧率:生成12帧(12fps)时,TPD使FIDfront从9.1降至8.0;

  • 长视频扩展:生成24帧时,TPD将FVDmulti从45.6优化至36.3。

结论

在本文中,我们提出了MiLA——一种基于世界模型框架的驾驶场景视频生成方法,能够根据先前帧和未来路径点生成视频。为实现这一目标,我们提出了一种粗到精(修正)框架:首先生成低帧率锚定帧,随后通过插值生成高帧率帧并联合修正锚定帧。此外,我们设计了联合去噪与修正流(JDC)时间渐进去噪调度器(TPD)模块以增强时间一致性。实验表明,MiLA在长期高保真视频生成任务中达到最先进性能。最后,我们希望MiLA能为从业者在长期高保真世界模型领域提供启发。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值