3D/4D World Model（WM）近期发展的总结和思考

最新推荐文章于 2025-12-01 19:30:00 发布

转载最新推荐文章于 2025-12-01 19:30:00 发布 · 138 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247679728&idx=4&sn=d9d7aa8ce812fb7a9c975bc48e86376a&chksm=cfb336605c09d98cd7818f275120c8780f0378b1fc406da3efe4d549df63ff8de8b7045bae57&scene=126&sessionid=0

文章标签：

#3d

作者 | 明仔 matrix 来源 | 机智流

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

说在前面的话

有关具身智能，在今年前三季度的大部分工作和思考仍旧集中在数据的收集和数据的利用上——即如何高效的利用视频的示例数据去训练一个性能表现都不错的基础模型的研究。这个上半年一直持续挖掘的工作，似乎也没有激起很多的水花。大家在分析和总结前期遇到的问题的时候，不免会对一些无法清晰回溯的内容进行质疑，即在数据采集上是否有大问题，我们对于数据的利用上的思考是否还存在很大的不足。

于是，在对数据分析的过程中，3D/4D的世界模型开始重新回归大家的思考。即针对所采集的数据合理性和丰富性进行进一步拓展优化的研究思路。

从目前行业发展来看，最近的3D/4D的世界模型也开始走成了两派的思路即隐式和显式的两种研究主张：

隐式3D的世界模型，通过提取出3D/4D的内容来提升视频的空间理解能力；
显式3D的世界模型，需要显式的给出3D Mesh或者其他的结构信息和物理规律，才能保证系统的稳定和可用。

一个金色头发的老头正在参观一个中式的客厅

从实际的应用上看感觉两者的局限性在一开始就暴露得清晰无疑，然后我们对于这些局限性似乎也没有很好的一个解决思路。于是我开始翻看以前的自己的思考和总结，我觉得一年多前自己提出的Real2sim(wm)2Real的思考还挺有道理的。我打算在这篇文章中结合现阶段多个很不错的研究和之前提出的想法，可以帮助一部分初学者或者还迷茫要怎么开展研究的同学共同理清楚一下脉络。

基于仿真器出发研究，3D Phys-Diff-Simulator

目前我们对于显示世界模型的研究依旧集中在静态3D场景当中——模型来构建场景再结构化的decouple场景，拓展可交互空间；又或者是先通过scan的方式构建initiate 3D 场景，再丰富场景。 （两种方法其实在性能，成本和效果上都各有优势，目前的方法都很成熟，是可以开箱即用的程度，所以我们暂时进一步讨论优劣。）

整个过程中不涉及动态的物理模拟，所以并不满足世界模型最初定义的完整工作流，只初步完成了初始化Env搭建这一环而已。类似于Hunyuanworld-1.0^[1]，Matrix-3D^[2]的工作中，构建全景图和从全景图中恢复3D Mesh场景就是目前工作中的典型。不过也有很多工作尝试完善这个世界模型的工作闭环，即环境到交互再到环境变化。Discoverse^[3]和EmbodiedGen^[4]把环境的构建区分为了前景和背景的构建，背景使用pano或者是scan的3D场景构建出静态的内容，前景则使用Google的Mujoco^[5]或者Mujoco-Warp^[6]中的Mesh物理仿真+3DGS的渲染来完成高保真动态的物体交互。Genesis^[7]则是通过Taichi^[8]来对Mujoco内素材的再次渲染来完成超高画质的场景重建。

我的上一篇文章中《Real2sim2Real的破局之法》提到了一些Real2sim2Real的常见问题。很可惜，这些问题在问题在上面这些工作中依然存在。

首先是3DGS<===>Mesh方案，目前已知是3DGS对于物理表面的建模效果比较一言难尽。后续如SuGaR^[9]、2DGS^[10]等技术对3DGS进行结构化改造，但是从基本geometry的优化上，依旧发现了这些方案对于表面的优化较为粗糙。GSDF^[11]、Pano2Room^[12]这两个工作，则把Mesh或者是SDF当成监督，在学习的过程中进行优化，能够一定程度上解决3DGS的表面平滑的问题，但是对于3DGS以及生成出的mesh和却没办法又很好的保障。

完全弃用3DGS，而采用提高Image-generation模型提升Mesh面数和贴更加高清UV纹理的方式，可能又会带来渲染饱和度过高和物体-场景光照不平衡的图形学问题（image-gen模型会把光照烘焙进去texture里面），因此又再次把visual-gap的问题引入了回来。期望这一系列问题在未来会有一些优化的相关论文来帮助做得更完善。

光照问题比如De-lighiting的工作（eg. TSGS^[13], GS-ID^[14]）正在逐渐优化;表面的问题也有一些结合了Mesh监督再加上结构化处理3DGS的思考论文;未来越来越高质量的3D-Recon工作也会逐步打破real2sim的visual gap以及在geometry上稳定性问题。

除了上述问题，在当前的整体设计中，我们不得不再提一点——跨物理仿真器平台之间的部署问题。上述的方案在物理参数设计上基本都是复用了mujoco上物理参数设定，至于在Isaac平台上这些方案能不能处理好，在SAPIEN上呢？Roboverse^[15]就考虑到仿真器之间的物理差距，从而设计一个统一的跨物理仿真器的平台，来帮助我们进一步的优化世界模型的物理表达。

对于Phys-diff-simulator这种范式而言，如何进行大规模数据的scaling-up，是一个难点。我们可以灵活的设计各种动作表达，微分出各种交互，但是相对于Imitation learning的数据需求上，这些仍旧是远远不足的。

基于视频生成/多视角出发的世界模型研究

随着25年的通义万相^[16]系列模型的出现，我们发现规模化的清洗数据和数据标注能够带来motion上的提升。

得益于Feed forward 3D 展示出强大的模型带来的3D信息的预测和估计的能力，3DGS/4DGS和世界模型的结合的工作也开始逐步的发展起来(如GWM和Enerverse^[17]).与此同时Dust3R^[18]、Mono3R^[19]、Gssplat3R^[20]、MoGe^[21]这些3R技术演进到最近的VGGT^[22]，逐步把“单/少帧 → 点图/深度/相机/稠密几何”的一站式推理做稳，让示例视频也可以拥有3D属性，强化模型对于空间理解交互的工作Robot4DGen^[23]开启了Imitation Learning 3R时代的进一步发展。这些工作是基于目前空间结构化能力还不能很顺利的被我们采集的示例视频学习到，于是借助3R/3DGS的技术来帮助模型可以进一步的把没有办法学习到的3D空间知识学习下来。

这个思路符合目前大家对于pixel-worldmodel scaling-up的理解，也很好的弥补了在训练过程中不同的训练视频上动作空间不同步的问题。

目前来说这类技术的问题核心在于从2D到3D的转换依旧不够成熟，遮挡时的像素漂移，不同相机角度采样下难以保持跨视角一致等问题还需要进一步解决。

符合物理的4D生成

目前的4D生成技术主要分为以下3类：

Template-base，使用模板（静态网格/骨架/蒙皮/4Dmesh）为基础，通过LBS、BlendShapes、MPM，关节轨迹预测，视频生成出的轨迹变换来生成或者是预测对象的motion变化，进而实现4D；
Generate-base，信息可能从生成的3D模型或者视频中来。通过文本/图像控制生成出3D模型，再通过video来实现motion的变化，最后把motion内容与3D模型的进行绑定，从而实现4D模型的构建；
从交互视频反演几何+物理，得到可模拟4D的内容。

如何把4D生成迁移到仿真环境当中

对于4D如何参与到simulation阶段，目前的研究比较空白。无论是基于template和基于video的生成式的4D生成方案，对于motion和interact的模拟以及评价指标依旧停留重建的画质以及几何一致性，然后通过user study对其余的运动属性进行评估来构建指标的体系。

对于如何把可控物理属性，通过这些物理属性预测出的物体状态变化，依旧是比较少的。在视频生成领域多数用高质量的清洗过的物理数据和物理评估指标去优化整个视频的motion变化。目前，大部分的视频生成的工作在motion上能有很好的表现，但是对于物体交互以及物理交互之后在环境中产生的变化，目前的视频生成依旧是没法做好。问题主要集中在视频生成无法理解具体的物理变化，可能多数时间模型只是在学习一个轨迹变化。例如打篮球的时候，你会发现运球的时候，球和地面接触再回到手里面，这个状态的改变是不太连贯的。

从视频中学习出带时序的3D Point，之后通过Personalization的Text-3D生成4D的抽象表情包

这其中的难点主要集中在视频生成模型能否有足够的能力从训练数据中反演出物理规律，理解物理自身属性和交互属性。这些问题在一段时间内似乎仍然不好解决。因此，基于仿真器的物理驱动模拟，短期内并不会被取代。未来一段时间可能会发展出仿真器-视频生成组合相关的一些工作(如RoboTransfer^[24])。但是希望通过这种方式来压榨视频生成模型的能力，快速克服sim2real上的一系列问题，一定程度上也极大的限制了视频生成模型进化为世界模型的可能性。

结尾：

严格意义上来说，3D/4D世界模型其实和现有的V-JEPA 2^[25]等工作并不是一个体系的内容。现在的工作更注重于3D/4D质量和内容的发展，并不是世界模型所看重的预测能力。相比于Genie3所生成的交互式、可编辑的概念，目前的3D/4D的工作会更加重视几何一致性的表达，还有场景图像质量上的问题。

基于上述的理解和考虑，我们可以预测出之后的工作会朝着进一步的外挂或者内嵌物理知识的方向进行发展。未来的3年内，我们会不断的看到相关工作的发表，通过这种方式来重新让Real2Real的embodied-ai任务焕发生机，不止是机械化的组合simulator，或者是教条化的引入video-gen来处理某些gap的问题。而是更多希望引入这些方法来支撑起数据金字塔，打破数据上的瓶颈。本质上我还是期望未来的模型拥有更好的直接物理理解能力，以及拥有不错的视推理能力。同时我也觉得，世界模型最后或许也会发展成具身智能基模架构中的一个模块化的内容，当然这也取决于后续大家对于世界模型的思考，以及不减少功能下，对于世界模型定义的简化。

参考资料

[1]

Hunyuanworld-1.0: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

[2]

Matrix-3D: https://github.com/apple/ml-matrix3d

[3]

Discoverse: https://github.com/TATP-233/DISCOVERSE

[4]

EmbodiedGen: https://github.com/HorizonRobotics/EmbodiedGen

[5]

Mujoco: https://github.com/google-deepmind/mujoco

[6]

Mujoco-Warp: https://github.com/google-deepmind/mujoco_warp

[7]

Genesis: https://github.com/Genesis-Embodied-AI/Genesis

[8]

Taichi: https://github.com/taichi-dev/taichi

[9]

SuGaR: https://github.com/Anttwo/SuGaR

[10]

2DGS: https://arxiv.org/html/2403.17888v1

[11]

GSDF: https://city-super.github.io/GSDF/

[12]

Pano2Room: https://github.com/TrickyGo/Pano2Room

[13]

TSGS: https://longxiang-ai.github.io/TSGS/

[14]

GS-ID: https://github.com/dukang/gs-id

[15]

Roboverse: https://roboverseorg.github.io/

[16]

通义万相: https://github.com/Wan-Video/Wan2.1

[17]

Enerverse: https://github.com/AgibotTech/EnerVerse-AC

[18]

Dust3R: https://github.com/naver/dust3r

[19]

Mono3R: https://github.com/Junyi42/monst3r

[20]

Gssplat3R: https://github.com/btsmart/splatt3r

[21]

MoGe: https://github.com/microsoft/MoGe

[22]

VGGT: facebookresearch/vggt

[23]

Robot4DGen: https://robot4dgen.github.io/

[24]

RoboTransfer: RoboTranfer

[25]

V-JEPA 2: https://arxiv.org/abs/2506.09985

-- 完 --

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com