分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV‘25)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享地平线联合清华、北大、南大等单位中稿ICCV2025的自动驾驶世界模型工作—Epona。Epona融合了扩散模型与自回归模型的优势,实现了在单一框架下同时支持分钟级长视频生成、轨迹控制生成和实时运动规划!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取自动驾驶之心知识星球

写在前面 & 笔者的个人理解

扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而,现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模,而非逐步构建每个时间下的局部化分布。本研究提出 Epona,一种自回归扩散世界模型,通过两项关键创新实现局部时空分布建模:1)解耦的时空分解,将时间动态建模与细粒度未来世界生成分离;2)模块化的轨迹与视频预测,通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的“链式前向训练策略”(chain-of-forward training strategy),在实现高分辨率、长持续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明,与现有方法相比,Epona在FVD指标上提升7.4%,预测时长可达数分钟。该世界模型进一步可作为实时端到端规划器,在NAVSIM基准测试中优于现有端到端规划器。

  • 论文标题:Epona: Autoregressive Diffusion World Model for Autonomous Driving

  • 论文地址:https://arxiv.org/abs/2506.24113

  • 项目主页:https://kevin-thu.github.io/Epona/

  • GitHub地址:https://github.com/Kevin-thu/Epona/

研究动机剖析

扩散 or 自回归?世界建模仍存鸿沟

近年来,伴随着生成模型的快速发展,世界模型作为模拟物理世界、建构环境动态并辅助智能体进行规划与决策的关键技术范式,受到广泛关注。在自动驾驶这样高动态、高复杂度任务中,世界模型可通过预测未来环境状态,辅助智能体实现前瞻性轨迹规划,从而摆脱对繁复感知模块与昂贵标注数据的依赖,成为构建下一代端到端自动驾驶的重要路径。

然而,当前自动驾驶世界模型的建模方式和架构设计仍存在明显缺陷。现有的世界模型架构主要借鉴自两大类主流生成模型框架:

  1. 基于视频扩散的世界模型(如 GAIA-2、Vista):能生成高质量连续视频,但仅限固定长度、缺乏时序因果性建模,难以扩展至灵活长度长视频生成和轨迹规划任务;

  2. 基于自回归Transformer类模型(如 GAIA-1、DrivingWorld):通过离散token自回归建模实现长序列预测,支持闭环控制和视频轨迹联合生成,但牺牲了连续图像质量和真实轨迹建模能力,且自回归长时序推理存在严重误差累积。

这两类方法各有优劣,长期以来缺乏一种统一且实用的解决方案。在自动驾驶等应用中,大家希望模型既具备高质量长时序的预测推理能力,又能进行实时运动规划与轨迹控制,因此如何革新世界模型的基础架构设计成为限制世界模型发展的关键挑战。

相关工作回顾

自动驾驶世界模型

构建真实驾驶世界模型近年来受到广泛关注,其中以视觉为中心的方法因其传感器灵活性、数据可访问性以及更接近人类的表征形式而占据主导地位。早期研究主要集中在通过微调将预训练扩散模型(如 Stable Diffusion)适配到驾驶场景中。然而,这些方法要么缺乏关键的规划模块,要么受限于低分辨率和短时生成,难以满足长期一致预测和实时规划的需求。

近期研究探索了采用GPT风格架构来统一视觉与动作建模,并实现了长序列自回归生成。然而,这些方法需要将图像和轨迹编码为离散token,显著降低了视觉质量和轨迹精度。同样,新发布的Cosmos基础模型虽可作为驾驶世界模型,但并未引入新框架,仍面临与前述方法相同的局限性。此外,其庞大的参数量和计算需求也限制了实用性。相比之下,本文提出了一种新颖的自动驾驶自回归扩散世界模型框架,支持连续视觉与轨迹表征下的长序列自回归生成。

长视频生成

长时序预测不仅是当前视频生成模型的关键挑战,也是世界模型鲁棒泛化的核心能力,因为它反映了模型学习环境动态并准确模拟时间进程的能力。由于原始视频扩散模型(如SVD)仅能生成固定长度的短片段,早期方法通过噪声重调度、重叠生成或分层生成扩展视频长度。然而,这些技术未能解决模型固有限制,常导致长视频中出现不一致性和突变视觉效果。

自回归方法天然支持变长生成,但因教师强制训练(teacher-forcing)与采样阶段误差累积之间的领域偏移(domain shift),导致生成质量显著下降。GameNGen和DrivingWorld通过训练中引入噪声增强和随机token丢弃缓解这个问题,但却受限于特定模型架构。本文提出了一种通用的“链式前向训练策略”(chain-of-forward strategy),使模型在训练中直接学习推理误差,有效减少自回归漂移。

近期研究如Diffusion Forcing和FIFO-Diffusion通过调整帧级噪声水平和利用因果网络设计,探索了视频扩散中的自回归生成。Epona采用了类似的因果时间建模策略,但将架构重新定义为两阶段端到端框架,支持运动规划与下一帧图像的联合生成。

算法详解

重新思考世界模型的建模方式

为解决上述问题,Epona 对自动驾驶世界模型的建模范式进行了系统性重构,从而有效融合了扩散模型和自回归模型的优势。Epona 将世界模型建模为一个时序域中的逐步状态预测过程,具体来说,给定过去一段时间内的驾驶场景序列   和对应的驾驶轨迹  ,并完成两个异步协同的生成目标:

  1. 轨迹策略预测:生成未来   步的行车轨迹

  2. 下一帧场景预测:基于历史信息和未来第一步轨迹控制,预测下一帧驾驶场景(相机视图)

在此设计基础上,Epona 引入三项关键设计创新:

解耦时空建模

实现灵活长度的高质量长时序视频生成

传统视频扩散模型建模固定长度序列的联合分布,难以支持长视频生成和灵活控制。Epona 首次在扩散世界模型中显式解耦时间建模与空间生成

  • 时序建模:使用多模态时空 Transformer(MST)通过交错的 causal temporal attention 和 spatial attention 编码历史视觉与轨迹序列,提取紧凑的时序潜变量;

  • 空间生成:基于时序潜变量条件,使用双-单流结构的 DiT 预测未来轨迹和驾驶场景,支持逐帧自回归生成。

这一结构显式建模了时序信息,显著增强了模型的时间维度可扩展性,允许根据条件灵活生成任意长度的视频,同时保持每一帧的高分辨率与细节一致性。实验中,Epona 可在 NuPlan 上生成超过 2分钟(600帧)的高质量驾驶视频

解耦轨迹与图像生成

支持轨迹控制生成与实时轨迹规划

基于历史信息,Epona 进一步将未来预测分为轨迹生成轨迹控制的场景生成两个扩散分支:

  • TrajDiT:通过扩散模型生成未来 3 秒连续轨迹 

  • VisDiT:基于历史信息和当前动作   生成下一帧图像 

两个分支共享时序潜变量、异步去噪,因而能够分别使用,支持如下能力:

  • 轨迹控制生成:可仅使用 VisDiT,输入指定轨迹,生成出特定动作意图下的驾驶视频,也可以将模型自行预测轨迹的第一个动作作为条件,让模型自由幻想驾驶场景;

  • 实时轨迹规划:可仅使用 TrajDiT 实现实时预测未来轨迹(>20Hz),在不启用图像分支的情况下完成轻量化运动决策

Chain-of-Forward 训练策略

缓解自回归误差积累

误差累积(Autoregressive Drift)是自回归视频生成中长期存在的一大问题:训练阶段模型使用真实历史帧作为条件,推理时却需要依赖自己的预测结果,导致训练-推理分布不一致,在生成长视频时视觉效果快速下滑。

为此,Epona 引入了一种简单而有效的Chain-of-Forward(CoF)训练策略:在训练阶段周期性使用模型自身预测帧作为下一步输入,从而模拟推理阶段的分布偏移,提升模型对自身噪音的鲁棒性。这一思想恰好与最近很火的 **Self Forcing ** 不谋而合,但 Self Forcing 仍基于已有的视频扩散模型架构,受限于视频扩散模型本身训练的视频长度;而 Epona 使用重新设计和训练的逐帧自回归模型框架,实现真正的逐帧自回归视频生成。

然而,在训练中引入推理会显著影响训练速度,为提升效率,Epona 在训练中仅通过单步生成近似预测下一帧,公式如下:

其中   是加噪后的图像隐变量,  表示通过 Rectified Flow训练的扩散模型(流模型)的速度场预测。该策略有效提升了模型在长序列生成过程中的稳定性与一致性。实验表明,加入 Chain-of-Forward 后,FID 和 FVD 均显著下降,误差累积问题明显缓解。

实验结果

Epona 在 NuPlan和nuScenes数据集上从头训练,输入图像尺寸为 512×1024,模型总参数量约 2.5B,采用 Rectified Flow 目标端到端优化。推理阶段可在单张 4090 GPU 上进行,单张 4090 上图像生成约 2s/帧,轨迹预测支持 20Hz 实时运行。

分钟级长视频生成

与 SoTA 的自动驾驶世界模型 Vista 和 NVIDIA Cosmos (v1-AR-4B)对比,Epona 大大提高了可生成视频的长度,在 NuPlan 数据集上可生成长达 2 分钟(600帧)的驾驶视频,具有显著优势:

轨迹控制视频生成

Epona 支持细粒度的轨迹控制,可根据指定轨迹生成定制化的驾驶视频: 

视频生成结果对比:

端到端轨迹预测

Epona 支持端到端轨迹预测,可用于自动驾驶运动规划,相较专为运动规划设计的端到端网络,在 nuScenes 和 NAVSIM基准上均取得有竞争性的结果:

与其他工作的对比&讨论

近来AR+Diffusion的设计思想受到广泛关注,简要对比Epona的设计思想与相关工作的不同之处:

  1. Transfusion, JanusFlow , Bagel等工作将 token-by-token 的文本自回归与图像扩散结合,主要聚焦于统一大模型中图像的语义理解和生成;而 Epona 将 frame-by-frame 的时序潜变量自回归与多模态扩散生成相结合,聚焦于解决视频生成中的时序建模与动态一致性问题。

  2. MAR, NOVA, VideoMAR等工作通过 Diffusion Loss 建模连续 token 的分布,摆脱了传统自回归模型中 VQ 离散化的需求,但当前在视频生成上的探索仍处在初步阶段,局限于生成短时序、动态性小的视频,在世界模型长时序、高动态的视频生成中的能力尚待探索。

  3. CausVid, Self Forcing, Vid2World等工作通过修改现有的视频扩散模型架构引入时序建模和逐帧生成能力,但仍受限于视频扩散模型本身训练的视频长度;Epona 则重新设计了世界模型架构,将时序建模和逐帧空间建模显式解耦,且支持图像、轨迹多模态生成。

总结

Epona 提出了一种自回归扩散式的新型自动驾驶世界模型框架,通过任务解耦、结构重构与链式训练策略,实现了在同一模型中统一支持分钟级视频生成、轨迹可控模拟和实时规划控制三项核心能力。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值