告别数据“喂不饱”的时代！世界模型新突破：生成数据撑起具身大脑，性能飙升300%！

原创于 2025-12-02 16:21:24 发布 · 363 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #媒体 #知识图谱 #网络 #算法

VLA模型性能暴涨300%，背后训练数据还首次实现90%由世界模型生成。

这是来自国产世界模型玩家的最新突破，相关模型代码和训练框架还全都开源了。

具身智能迈向开放世界落地的最大瓶颈，长期以来并非算法本身，而是高质量、大规模真实机器人交互数据的极度稀缺。

真机数据采集成本高昂、周期漫长，且难以覆盖多样化的开放场景，严重限制了VLA大模型的规模化训练与泛化能力。而传统仿真虽能快速生成数据，却受限于显著的Sim-to-Real gap，难以支撑真实世界的鲁棒部署。

世界模型（World Model）被认为是破解这一困境的关键：通过学习真实世界的规律，世界模型可以生成高保真、可控、多样化的具身交互数据，突破真机数据不足的限制。

在此背景下，刚刚获得华为投资的国产世界模型公司极佳视界发布并开源具身世界模型GigaWorld-0，成功将世界模型生成数据在VLA训练中的占比提升至90%。

所训练的VLA模型在新纹理（训练中未见材质表面）、新视角（训练中未见的观测角度）、新物体位置（训练中未见的空间布局）三大泛化维度上均实现近300%的性能提升，标志着具身智能正式迈入“数据高效、高泛化、低成本”的新阶段。

作为具身智能迈向规模化与数据高效的关键基础设施，GigaWorld-0由两大协同组件构成：

GigaWorld-0-Video基于视频生成基座模型，生成纹理丰富、视觉逼真具身操作数据；
GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建、可微分物理引擎，确保生成数据在几何结构与物理动力学的准确性。

一、高效的世界模型架构

针对当前世界模型在生成时面临的计算效率低、细节控制不足等挑战，GigaWorld-0-Video重点提升了稀疏注意力建模能力与动态专家计算能力，在保持视觉保真度的同时显著降低计算开销，为VLA模型提供高质量、可扩展的合成训练数据。

1.稀疏注意力机制：高效建模长程时空依赖

GigaWorld-0-Video采用基于稀疏注意力的Diffusion Transformer（DiT）作为生成主干，摒弃传统全注意力带来的平方级计算复杂度。

该机制仅在局部时空邻域与关键语义区域间建立注意力连接，从而在生成高帧率、长序列视频时，显著降低内存占用与推理延迟。

2.MoE架构：提升生成多样性与可控性

在DiT的前馈网络模块中，GigaWorld-0-Video参考DeepSeek V3集成混合专家（Mixture-of-Experts，MoE）架构。

每个视频Token动态路由至多个专家网络。确保不同语义区域由专属专家处理，实现细粒度的内容控制。

二、几何一致、物理准确的世界模型建模

GigaWorld-0-3D通过融合生成与重建技术，显著提升了在稀疏观测条件下的场景建模能力，并结合可微分物理引擎，实现了对机械臂操作过程的高保真物理仿真。

该系统不仅生成几何一致、视觉逼真的静态背景资产，还精准复现了机械臂与物体交互中的动力学行为，为具身智能体提供兼具几何一致性与物理准确性的训练数据。

1.生成式重建：几何一致性与视觉保真度的协同优化

在几何一致性渲染方面，GigaWorld-0-3D融合极佳视界积淀的生成式重建技术，有效突破稀疏观测下的建模瓶颈。

系统首先基于稀疏输入视图，初始化高斯场景表示。随后引入专用的视图修复生成模型，显著缓解因视角缺失导致的几何扭曲。最终，将修复后稠密、一致的多视角图像作为增强输入，驱动第二阶段的高精度3DGS重建，从而在新视角合成中同时保障几何一致性与视觉保真度。

2.可微分物理引擎：高效精准的物理建模

在物理准确性建模方面，GigaWorld-0-3D引入基于物理信息神经网络（PINNs）的可微分物理引擎，实现对机械臂动力学的自动参数辨识。

通过三步流程：以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降优化参数匹配真实运动，高效生成物理合理、交互可信的数据。

三、高效世界模型训练框架

GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型，标志着世界模型训练迈入高能效新阶段。

通过将FP8与稀疏注意力深度结合，GigaWorld-0在保持生成质量的同时，显著降低显存占用与训练成本，实现了视觉保真度与计算效率的最佳平衡。

为这一突破提供基础的，是极佳视界自研的GigaTrain高效训练框架。

GigaTrain是一个为大规模生成模型量身打造的统一分布式训练系统，支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进训练技术，既可支撑超大规模预训练，也能在8×H20等常规硬件上高效完成微调。

GigaTrain现已全面开源（GitHub：https://github.com/open-gigaai/giga-train），极佳视界还同步开放了详细的资源消耗基准与配置模板，助力社区开发者快速复现、迁移并定制GigaWorld-0，推动具身智能数据生成的普惠化与标准化。

四、可泛化具身数据引擎

在PBench（Robot Set）基准上，研究团队将GigaWorld-0与当前最先进的世界模型进行了全面对比，包括Cosmos-Predict2-14B、Cosmos-Predict2.5-2B、Wan2.2-5B和Wan2.2-14B。

尽管GigaWorld-0模型仅激活20亿参数（2B），为所有对比模型中最小，却在整体评分上显著领先，取得最高性能。

这一结果证明GigaWorld-0在具身智能任务中兼具生成质量与推理效率，是目前极具性价比的世界模型方案。

GigaWorld-0的价值还不仅体现在高质量视频与3D场景的生成能力上，更关键的是其作为可泛化具身数据引擎在真实世界中的有效性。

在VLA模型GigaBrain-0上，研究团队系统性地验证了GigaWorld-0生成数据对下游具身智能任务的提升作用。实验在真实机器人平台上进行，聚焦三大开放世界泛化挑战：新纹理泛化、新视角泛化、与新物体位置泛化。

结果表明：随着GigaWorld-0生成数据在训练混合数据中比例的提升，GigaBrain-0在上述三类泛化场景下的任务成功率与动作精度均呈现显著且稳定的增长趋势。

项目链接：
https://giga-world-0.github.io/
论文链接：
https://arxiv.org/pdf/2511.19861
代码链接：
https://github.com/open-gigaai/giga-world-0

五、关于极佳视界

极佳视界成立于2023年，是国内第一家“纯血”物理AI公司——创业就以世界模型为切入点，专注于「世界模型平台 x 具身基础模型」，致力以双轮闭环走向物理世界通用智能。

在「世界模型」方向，极佳视界是国内技术创新和产业落地的领跑者，相关产品技术已广泛应用于自动驾驶、具身智能、内容创作等相关方向。

在「具身大脑」方向，极佳视界通过全球领先的「世界模型平台」提供大规模高质量闭环数据，相比纯真机数据训练效率提升1-2个数量级以上，同时真机效果达到国内领先。

极佳视界的创始人兼CEO黄冠，是清华大学自动化系AI方向博士。曾担任地平线机器人视觉感知技术负责人、鉴智机器人合伙人&算法副总裁等知名企业技术和高管岗位，并拥有三星中国研究院、微软亚洲研究院等顶尖研究机构工作经历。

黄冠之外，联合创始人、首席科学家朱政同样有清华自动化系背景。他2019年博士毕业于中国科学院自动化研究所，此后在清华大学自动化系从事博士后研究。Google Scholar显示，朱政的论文被引数达到1.7w+，h-index为50。

公司核心团队还包括清华、北大、中科院、中科大、WashU、CMU等全球知名院校顶尖研究人员，以及来自微软、三星、地平线、百度、博世、NBC环球影业等全球知名企业高管，核心团队兼具业内领先的研究能力和大规模的产业落地经验。

目前，极佳视界是国内少有在「世界模型」和「具身大脑」方向都拥有世界级综合实力的团队，在自动驾驶世界模型方向已经和多个头部主机厂达成签约合作，在具身世界模型、具身大脑等方向已经和多个具身本体、终端公司达成签约合作，应用于科研、教育、展览、数据采集、工业、服务、家庭等多个场景。

就在11月，极佳视界刚刚完成亿元级A1轮融资，由华为哈勃、华控基金联合投资。这也是该公司两个月内连续完成的第三轮融资。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述