从想象到交互:以 Genie 3 为起点的 2025 世界模型技术地图(盘点)

引言

过去两年,视频生成模型从「好看」逐步走向「可用」。Genie 3 把这一趋势推到台前:它能把文本或图像提示转成可实时交互的 3D 世界,以 720p/24 fps 持续运行数分钟,并支持“可提示的世界事件”(如改变天气、加入角色),同时维持较强的对象与场景记忆一致性,虽仍处于限量研究预览阶段,但已明确展示了从被动视频到可控世界模拟器(即世界模型,World Model)的跃迁。(Google DeepMind, The Verge, The Economic Times)

Genie 3

为什么世界模型(World Model)如此重要呢?

对通用智能体与机器人而言,“世界模型”提供了环境动力学与可干预的想象空间:Agent可以在低风险、低成本的虚拟世界里规划、试错与学习,再把策略迁移到现实系统。产业侧亦在同步押注,例如 NVIDIA Cosmos 把“世界基础模型(WFM)+ 视频 tokenizer + 加速数据管线”平台化,直接对接自动驾驶与机器人应用场景,标志着从研究范式向工程栈与产品化的过渡。(NVIDIA)

NVIDIA Cosmos

学术上,2025 年的两项里程碑把“世界模型的必要性”从经验提升到证据与理论:其一,Dreamer V3 在 Nature 展示了“学模型、用想象来学策略”的统一算法,在 150+ 控制任务上以单一配置达标(Nature);

Benchmark scores(Using fixed hyperparameters across all domains)

其二,Richens 等人的形式化结果给出结论:能在多步目标上泛化的智能体,必然内生出可预测的世界模型,且任务难度越高,对世界模型的精度要求越高(如下图)。( arXiv)

The agent-environment system

然而,“世界模型”并非单一技术点,而是一条跨模态、跨任务、跨系统的合流:从动作条件的视频生成器到潜空间/对象中心模型,从SSM×扩散的长时记忆到因果/规划评测,再到视频离散化与系统化训练/服务。定义与指标仍在收敛:如何统一衡量可控性、长程一致性、对象永存、因果可解释性、规划有效性与 Sim2Real,直接影响研究可比性与工程落地。正因如此,系统梳理 2025 年的论文、报告与产品,把“概念—算法—评测—工程—应用”贯通成一张可操作的地图。(The Verge, NVIDIA)

本文以 Genie 3 引出的范式变化为背景,将对 2025 年度的重要工作分主题编排(交互式世界生成、具身与机器人、驾驶世界模型、理论与算法、评测与基建)进行简单盘点。目标是为研究者提供可追溯的文献脉络,为工程团队提供可落地的技术航线图。

2025 年总体趋势(核心结论)

  • 从视频生成走向可交互“世界”: 扩散/Transformer 视频生成模型正被“动作条件(action-conditioned)+ 长记忆”改造成可交互世界模型:从单向生成视频 → 能在720p@24fps、分钟级一致性下实时交互(例如 DeepMind 的 Genie 3),并可注入“事件指令”改变天气/实体。这类模型被用作训练通用Agent(Generalist Agent)与机器人“安全场景”。 (Google DeepMind, The Verge)

Modelling physical properties of the world

  • 从像素到“潜空间世界”与对象中心表征 :大量工作将动态建模搬到潜空间(对齐 VFM 的 DINO/CLIP 等)或对象中心的 slot 表征,降噪/掩码生成替代逐像素重建,带来泛化和样本效率的提升。代表如 LaDi-WM(arXiv)、对象中心世界模型系列Dyn-O(arXiv)、EMERALD(MaskGIT 掩码式潜世界)(ICML)。

LaDi-WM

Dyn-O

EMERALD

  • 长时记忆:SSM×Diffusion 的融合 为解决长程一致性与“物体永存”(即保持long-term memory的问题),很多论文把状态空间模型(SSM)引入视频扩散,例如Long-Context State-Space的 世界模型(arXiv);也有人做显式几何/空间记忆与“工作/情景/空间”多记忆机制,例如StateSpaceDiffuser模型 (arXiv)。

Long-Context State-Space Video World Models

StateSpaceDiffuser model

  • 从“想象训练”到现实落地:机器人与自动驾驶 世界模型开始在机器人(离线/安全微调、策略评估)与自动驾驶(多摄/可控场景、因果/规划测评)里常态化:离线世界模型替代真机交互做 RL 微调,例如DiWA: Diffusion Policy Adaptation with World Models(arXiv),World-model-based Policy Evaluation (WPE)(arXiv) ;驾驶领域强调“可控多视角+动作条件+因果/规划”,例如GAIA-2(arXiv)。 (arXiv, arXiv)

DiWA

WPE

GAIA-2

  • 评测与基建:基准、Tokenizers 与产业平台 CVPR/ICLR 出现专门“World Model Bench/Workshop/教程”,学界提出针对长程空间一致性、程序性规划与导航的评测( (CVPR, World Model Bench Workshop, world-model-tutorial.github.io);工业侧 NVIDIA Cosmos 把“世界基础模型(WFM)”平台化,提供预测/迁移/推理三类模型与视频 tokenizer 工具链。 ( NVIDIA Docs, NVIDIA Newsroom)

Cosmos

Cosmos

  • 理论与立场 从“是否需要世界模型”到“为何必需”:2025 有形式化论证“通用代理要能在多步目标泛化,必须内部学到可预测环境模型”;同时 Dreamer 系列在 Nature 论文上进一步展示“靠世界模型掌握多种控制任务”(参考前面的论述)。 (GitHub)


2025年代表性成果与资料

A. 可交互世界生成 / 视频世界模型

  • Genie 3(DeepMind):通用世界模型,实时交互、720p/24fps、分钟级一致性、可“可提示事件”。研究预览阶段。 (Google DeepMind)

  • Navigation World Models(Meta/CVPR’25):用于导航的可控视频生成(CDiT),以机器人和自监督第一人称视频训练。代码开放。 (CVPR, GitHub)

Navigation World Model (NWM)

  • MineWorld(2025/04):Minecraft 实时交互世界模型(视觉-动作自回归 Transformer),并行解码实现 4–7 FPS。 (arXiv)

MineWorld model architecture

  • Vid2World(2025/05):将预训练视频扩散“因果化”以形成交互式世界模型,并引入因果动作引导。 (arXiv)

Vid2World

  • Long-Context SSM Video World Models:引入 SSM 提升长时记忆且计算稳定。 (arXiv)

Improved long-context training

  • StateSpaceDiffuser(Bringing Long Context…):把 SSM 状态引入视觉扩散,改善超长一致性并提出保真评测协议。 (arXiv)

StateSpaceDiffuser

  • Video World Models with Long-term Spatial Memory:几何约束的空间/工作/情景三类记忆协同。 (arXiv)

Video World Models with Long-term Spatial Memory

  • Matrix-Game(2025/06):可控游戏世界生成的交互式 WFM,先大规模自监督理解再有标注动作训练。 (arXiv)

Autoregressive generation in Matrix-Game and The architecture of Matrix-Game

  • VideoWorld(ByteDance/CVPR’25):纯无标注视频学习的“视频世界”,开源代码。 (arXiv,GitHub)

VideoWorld model architecture

  • EDELINE(2025/02→06):把 SSM 结构并入扩散式世界模型,解决固定上下文窗口的记忆瓶颈。 (arXiv)

EDELINE world model

  • Pre-Trained Video Generative Models as World Simulators:系统化阐述“动作条件视频模型 ≈ 交互环境模拟器”。 (arXiv)

Illustration of the action-conditioned module

B. 机器人 / 具身智能(Embodied AI)

  • FLARE(2025/05):将“潜世界预测对齐”嵌入扩散策略,少改动即可显著提效,并能联合无动作 egocentric 视频。 (arXiv)

FLARE architecture

  • UWM(Unified World Models, 2025/04):把“视频扩散+动作扩散”耦合到统一 Transformer,可同时表示策略/正向/逆向动力学与视频生成。 (arXiv)

Unified World Models

  • DiWA(2025/08):离线世界模型驱动的扩散策略安全微调,无需真机交互(CALVIN)。 (arXiv)

  • WPE:Evaluating Robot Policies in a World Model(2025/06):提出基于世界模型的视频生成代理的策略评估与分块自回归推理。 (arXiv)

  • RoboScape(2025/06):物理先验 + 视频生成的具身世界模型,引入时间深度与关键点动力学两项联合任务。 (arXiv)

RoboScape: Physics-informed Embodied World Model

  • EnerVerse-AC(2025/05):动作条件世界模型用于机器人模仿中的可控“想象观察”。 (arXiv)

EVAC Framework

  • Reflexive World Models(RWM, 2025/05):以世界模型预测作为隐式参考轨迹,实现快速领域自适应。 (arXiv)

  • 对象中心世界模型 for Language-Guided Manipulation(2025/03):slot 表征+语言条件,低算力高样本效率。 (arXiv)

OBJECT-CENTRIC WORLD MODEL

  • FOCUS(2025/05, Frontiers):对象中心世界模型提升操控预测与探索效率。 (Frontiers)

FOCUS

  • LAPO(对象中心潜动作学习, 2025/06):把“任务相关 vs 干扰”动态解耦,少量标注动作即可适配。 (arXiv)

  • DIMA(2025/05):扩散启发的多智能体世界模型,在 MAMuJoCo/Bi-DexHands 刷新 SOTA。 (arXiv)

DIMA world model

  • DSRL(2025/06):对扩散策略在潜噪声空间做 RL “ steering ”,与世界模型配合实现样本高效改进。 (arXiv)

C. 自动驾驶(Driving World Models, DWM)

  • GAIA-2(2025/03):可控多视角生成驾驶“世界”,支持动作/几何/环境多因素控制。 (arXiv)

GAIA-2

  • World4Drive(2025/07):借助 VFM 先验构建潜世界,联动多模态规划评估。 (arXiv)

World4Drive

  • ProphetDWM(2025/05):联合“未来视频+动作”预测,显式建模动作规律。 (arXiv)

  • STAGE(2025/06):流式世界生成,针对长程驾驶视频的一致性与可变时长。 (arXiv)

  • AdaWM(2025/01):自适应世界模型规划:失配识别 + 选择性低秩微调(对齐策略或模型)。 (arXiv)

Adaptiven World Model based planning (AdaWM)

  • HANSOME(ICLR’25 OpenReview):带语义通信的分层规划世界模型。 (OpenReview)

  • LAW(ICLR’25 接收,2024/06 预印):端到端驾驶的潜世界自监督辅助任务。 (arXiv)

LAtent World model (LAW)

  • DWM survey(2025/02):系统综述驾驶世界模型三层分类与数据/指标。 (arXiv)

Survey of World Models for Autonomous Driving

  • WorldPrediction 基准(2025/06):基于视频的高层世界建模与程序性规划评测。 (arXiv, arXiv)

  • Beyond Simulation(2025/08):面向驾驶的因果与规划能力评测基准。 (arXiv)

D. Agent/控制 & 理论

  • Nature:Mastering diverse control tasks through world models(2025/06):Dreamer 进一步证明多任务控制能力。 (GitHub)

  • General agents need world models(2025/06):形式化证明“要泛化到多步目标任务的代理必须学到可预测的环境模型”。 (arXiv)

  • Continual RL by Planning with Online World Models(ICML’25):在线学模型 + 规划缓解灾难遗忘。 (ICML)

  • Policy-Shaped Prediction(Stanford HAI):避免重构式 MBRL 的“分心”。 (斯坦福HAI)

Policy-Shaped Prediction in an environment with challenging distractions

  • AdaWorld / Latent Actions(2025/03):在预训练中引入动作信息提升可适应性。 (arXiv)

AdaWorld

  • COMET(2025/04):可解释、对象中心的因果世界模型与符号回归。 (arXiv)

E. 评测/赛事/Workshop/教程

  • CVPR’25:WorldModelBench(Workshop):首个聚焦世界基础模型评测的研讨会。 (CVPR)

  • ICLR’25:World Models(Workshop):涵盖规划、具身、因果与安全。 (OpenReview)

ICLR’25:World Models

Overview of the WorldScore benchmark design

  • Toward Memory-Aided WM(2025/05):Minecraft 多地点长环路数据与空间一致性基准。 (arXiv)

F. Tokenizer / 系统基建(世界模型的数据与离散化)

  • Progressive Video Tokenizer(2025/01 更新至 v2):逐层“成长”到高压缩潜空间。 (arXiv)

Progressive Growing of Video Tokenizers

  • Open-MAGVIT2(2025/02 释放视频版):开源高效视频 tokenizer。 (arXiv)

  • MAGVIT-v2(“LM beats diffusion”):统一图像/视频词表的离散化。 (arXiv)

  • RefTok(2025/07):参考帧保持连续,其余相对编码的“参考式”视频离散化。 (arXiv)

  • 离散 Tokenizer 调研(2025/02):系统综述多模态离散化方法栈。 (arXiv)

Illustration of general tokenizer pipeline and applications

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值