目录
二、拆解UnifoLM-WMA-0:一个能“演练”也能“指导”的智慧核心

🎬 攻城狮7号:个人主页
🔥 个人专栏:《AI前沿技术要闻》
⛺️ 君子慎独!
🌈 大家好,欢迎来访我的博客!
⛳️ 此篇文章主要介绍 宇树科技开源 UnifoLM-WMA-0 世界模型
📚 本期文章收录在《AI前沿技术要闻》,大家有兴趣可以自行查看!
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝!
前言:一个硬件巨头的“AI野心”
在人形机器人和四足机器人领域,宇树科技(Unitree)的名字几乎是“强悍硬件”的代名词。其产品以卓越的运动性能、爆发力和稳定性闻名于世。然而,在具身智能的浪潮下,一个强壮的“身体”显然已经不够,一个聪明的“大脑”变得前所未有的重要。
过去,宇树CEO王兴兴在谈及AI时,态度一直相对“克制”和“谨慎”,坦言AI研发过于“烧钱”,且机器人领域的AI模型,对能力的要求比语言模型要高一个等级,数据对齐也是一大挑战。但这并不意味着宇树忽视了软件和AI的布局。
2025年9月15日,宇树用一个重磅动作——开源UnifoLM-WMA-0世界模型-动作架构——向外界清晰地展示了它的AI野心。这次开源不仅包括了模型,还附带了完整的代码、数据集和上手指南,姿态极为开放。这标志着宇树正在从一个顶尖的硬件制造商,向一个“硬件+大脑”并重的生态构建者进化。

一、核心概念:什么是“世界模型”?给机器人一个“物理大脑”
要理解UnifoLM-WMA-0的重要性,首先要明白什么是“世界模型”(World Model)。
简单来说,世界模型就是一个能理解、模拟并预测物理世界规律的AI模型。它就像是机器人内置的一个“物理大脑”或者“想象力引擎”。
当我们人类要拿起一个杯子时,我们的大脑其实在进行着一场快速的“心理预演”:手要伸多远?用多大的力气?杯子会不会滑?水会不会洒出来?我们基于过往的经验,对接下来可能发生的物理交互进行了一次无意识的模拟。
世界模型赋予了机器人类似的能力。它不再是“看一步,走一步”的机械执行者,而是可以在行动之前,在自己的“脑海”里预演一下:“如果我这样做,世界(比如桌子上的积木)会发生什么变化?”这种“预见未来”的能力,是实现通用机器人智能的关键一步。
二、拆解UnifoLM-WMA-0:一个能“演练”也能“指导”的智慧核心
宇树开源的UnifoLM-WMA-0,其核心就是一个强大的世界模型。这个模型被设计用来深度理解“机器人与环境交互”的规律,并具备两大核心功能:
2.1 功能一:作为“虚拟训练场”的仿真引擎
训练机器人最大的挑战之一是数据采集。让一个机器人在现实世界中反复试错,不仅成本高昂、效率低下,而且充满风险。
UnifoLM-WMA-0的世界模型首先可以作为一个交互式的仿真引擎来运行。它能根据机器人给出的“未来动作”,在内部生成高度逼真的环境反馈视频。这就相当于为机器人创造了一个无限的、零成本的虚拟训练场。机器人可以在这个虚拟世界里进行海量的练习,快速学习各种动作和策略,从而大大缩短学习周期,降低现实世界的操作风险。

2.2 功能二:作为“未来预测器”的策略增强
除了当“陪练”,这个世界模型更重要的角色是当“军师”。通过与一个“动作头”(Action Head)对接,它可以实现策略增强。
在机器人做出实际决策之前,世界模型会预测执行不同动作可能产生的未来交互结果,为最终的决策提供关键参考。比如,在堆叠积木时,模型可以预判某个放置角度是否会导致积木塔倒塌,从而指导机器人选择一个更稳妥的动作。这种“未雨绸缪”的能力,让机器人的行为不再是盲目试错,而是变得更加智能和高效。

2.3 双模式架构:既是“参谋”,也是“模拟器”
为了实现上述两大功能,UnifoLM-WMA-0被设计成了两种协同运行的模式:
(1)决策模式 (Decision-making Mode):在此模式下,模型专注于预测物理交互信息,辅助策略模块生成更可靠的动作指令。它扮演的是“参谋”的角色。
(2)仿真模式 (Simulation Mode):在此模式下,模型则专注于依据机器人动作,生成高保真的环境反馈,用于数据生成和内部推演。它扮演的是“模拟器”的角色。
这种灵活的双模式架构,让同一个模型既能指导当前,又能演练未来,最大化了其应用价值。
三、“大脑”是怎样炼成的:三步走的训练流程与开源数据
如此强大的“物理大脑”并非一日炼成。宇树采用了一个“三步走”的策略,逐步培养和强化模型的能力,并为此开源了5个涵盖其Z1机械臂和G1人形机器人的任务数据集。
(1)第一步:微调视频模型,学会理解物理世界
团队并没有从零开始,而是选择了一个强大的视频生成模型作为基础,在通用的机器人操作数据集(Open-X)上进行微调。这一步的目的是让模型初步具备“世界模型”的能力,即它生成的视频不仅仅是画面的延续,更能理解画面背后蕴含的物理交互逻辑。
(2)第二步:训练决策模式,学会“出谋划策”
有了基础的物理理解能力后,模型会在宇树自家的下游任务数据集(如堆叠箱子、清理铅笔等)上,进行决策模式的专项训练。这个阶段,模型专注于学习如何预测未来交互,以便为动作生成提供有效的参考信息。
(3)第三步:训练仿真模式,学会“高保真模拟”
最后,模型会再次在同样的数据集上进行仿真模式的训练。这一步的目标是让模型生成的环境反馈视频尽可能地逼真,从而能够作为高质量的合成数据,反哺机器人的学习过程。
通过这种分阶段、有针对性的训练,UnifoLM-WMA-0最终得以兼具强大的决策辅助和高保真模拟能力。
四、眼见为实:它在真实机器人上能做什么?
理论再好,终究要看疗效。宇树官方的演示视频直观地展示了UnifoLM-WMA-0在真实机器人上的应用效果。

无论是宇树Z1机械臂堆叠方块、收拾铅笔,还是G1人形机器人装配相机,我们都能在画面的右上角看到一个实时的小窗口。这个小窗口里播放的,正是世界模型对机器人未来几步动作所产生的环境变化的“预测画面”。

通过对比真实发生的物理交互,可以清晰地看到,模型的预测相当准确。这正是世界模型价值的最直观体现:机器人不再是“盲人摸象”,而是真正“心中有数”,能够提前“看到”自己行为的后果。
五、从“卖硬件”到“建生态”:宇树为何拥抱开源?
在商言商,宇树为何要将如此核心的技术完整开源?这背后是其从硬件制造商向生态构建者转型的深层战略考量。
正如其CEO王兴兴所言,在具身智能模型领域,并非资源多、资金多就一定能赢,一个中小团队也可能做出更出色的成果。开源,正是激活全球中小型团队和个人开发者创造力的最佳方式。
通过开源模型、代码和数据,宇树能够:
(1)构建技术生态:吸引全球的开发者和研究者围绕其硬件和软件框架进行二次开发和创新,形成强大的技术护城河和社区黏性。
(2)加速技术迭代:借助社区的力量,可以更快地发现问题、验证新想法,从而加速自身技术的演进速度。
(3)树立行业标准:通过提供一套完整的“世界模型+动作”的解决方案,宇树有机会将其技术范式推广为行业的主流路径之一,掌握未来的话语权。
这次开源,表明宇树深知在具身智能的下半场,开放与协作比闭门造车更具竞争力。
结语:当机器人开始“思考”未来
UnifoLM-WMA-0的开源,其意义不只在于发布了一个SOTA模型,更在于它为通用机器人学习提供了一条清晰且可行的实现路径。它让机器人拥有了“想象”和“预判”的能力,这是从机械执行到真正智能的关键一跃。
随着宇树、自变量机器人(WALL-OSS)等公司的相继开源,具身智能领域正迎来一个由“共享驱动、加速演进”的黄金时代。当越来越多的“物理大脑”被创造和分享,那个科幻电影中描绘的、能够自由穿梭于我们生活空间、理解并完成复杂任务的通用机器人,或许正以前所未有的速度向我们走来。


项目主页:https://unigen-x.github.io/unifolm-world-model-action.github.io
开源地址:https://github.com/unitreerobotics/unifolm-world-model-action
看到这里了还不给博主点一个:
⛳️ 点赞☀️收藏 ⭐️ 关注!
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持!
你们的点赞就是博主更新最大的动力!
2万+

被折叠的 条评论
为什么被折叠?



