许华哲，抓紧时间慢慢等具身的未来......

转载于 2025-12-18 08:04:50 发布 · 8 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247688374&idx=3&sn=cf1b65bb2161b9e07ebaa2df7fc0eafd&chksm=cf17654608832094de31e54b4a9392d29a102b3a1da7d5ce6052a53b6037fc570d7533b4d4bf&scene=126&sessionid=0

作者丨许华哲

编辑丨具身智能之心

本文已经得到许华哲博士的授权，未经允许，不得二次转载。

点击下方卡片，关注“具身智能之心”公众号

>>点击进入→具身 ‍智能之心技术交流群

昨天看到了许华哲老师在社交媒体上的分享，关于数据、量产、本体和场景。类似的观点，今年IROS圆桌期间，许博也站在智能第一性原理上，将具身的未来发展方向划分为欲望、先验和经验三个模块。

欲望。在做智能体的时候，无论是物理的还是虚拟的，总觉得现在机器学习没有自己的学习欲望。我们可以设想一下，能不能给机器人一种自己的欲望？

先验。预训练的模型让它有了很好的先验。为什么马生下来5分钟就能走路了？也是因为它的DNA里面有一些先验在的。但神经网络没有这样的先验，如何将这种先验移植到神经网络中？这是我经常思考的。

经验。经验是完成世界最终闭环的一种手段。有一天，在家里面看到一位维修师傅就是帮我们修煤气灶，他踩在一个梯子上拧一个东西，整个身体造型极为扭曲，但他仍可以完美控制重心保持平衡，并且手上还可以做非常精细的操作。

★

这种思想也贯穿在后续的研发和学术探索上。

回想起几年前，我们还在讨论机器人什么时候能全地形走路，后来发现这个话题变成了“跑酷”、“跳舞”、“篮球”。这个变化速率让我知道这个事儿已经成了，如果明年可以攀岩我并不吃惊。

但这极快的变化速率又显得格外不协调，因为我没在任何地方看到人形机器人真正服务人类。快递分拣平均速率是1800件每小时，汽车工厂要万分之一甚至十万分之一的失误率。达成的那一天似乎一直在一个不远不近的地方招手：隔三差五有人宣称任务已经解决，但和跳舞的同行不同，我们只能在视频里见到它。

★

达到实时性、准确性、5w公里接管，自驾用了10几年，而具身还需要继续努力。

就像前面说的速率上的不协调，回望2025的具身智能，我发现了好几个这样不协调的相互映照的“对子”。当然也有个人的主观臆断，所以也请担待冒失的地方。

一、两个世界的机器梦

从22年、23年同步出发，我们和大洋彼岸几乎同步启航了具身智能的事业。但是到了2025年，我们看到了一个比较明显的分野，中国的公司花更多的力气搞量产、美国公司则展示AI技术上限。

我看到Generalist的Gen0精细的操作，看到Sunday的长程任务能力，看到pi0.6的持续工作能力，内心是有焦虑的。我有一个不好的直觉，我们要评估我们的技术是不是落后，但我想这里，我有责任，学术界的其他人也都有责任。量产重不重要，非常重要，但是机器人不是汽车，需要AI能力来领跑。

我觉得我们要适应一件事，就是时代变了。在过往的技术上，我们采用跟随策略；在大模型上我们已经产生了DeepSeek这样的原始创新；在具身智能上，我们应该有信心也有概率，最大的那件事儿发生在中国。我在https://zhuanlan.zhihu.com/p/683671286 中也有讨论过：“简单说你用修长城的场，不管给多少人、多少机器、多少钱该干不出来还是干不出来，该撵不上就还是撵不上”。我理解努力做确定性有收益的事情的那种爽感：我努力、我成长、我收获。但是我想我们真正缺乏的还是：我努力、我失败了99次、但我吸取教训并且期待第100次也许会成功。在一些人“成功地”蒸馏别人的模型时，另一些人在“失败地”研制新的算法。

我认为商业化很重要，也深知量产的严肃性，我只是怕我们错过了最大的那个西瓜。

二、落地简单场景还是挑战困难场景

这阵子也有看过一些场景，各种各样的工厂。我有一个稍有一点悲观的暂时性结论：高价值高重复的场景，总会出现一个深圳或者无锡的聪明人，造出一套自动化设备解决90%的问题。这个结论的反面是——目前没有自动化的事情，往往要么单价不高，要么重复度不高。因此，我反而觉得具身智能相比于传统的工业机器人更像是大模型。

让我们沿着这一类比去想，就像大模型不应该花时间在“情感理解”，“文章摘要”这样的任务上一样，具身智能就不应该做这些简单地任务，而是应该去挑战“强操作”、“高泛化”的事情。这样我们也更能期待一个高质量的模型，通用地解决许多事情。

当然，我们不能否定现有落地的价值，因为很多向具体场景的落地无论未来的智能模型有多强，都还是需要比较高的迁移成本的，这个路早趟过去也是好的。

三、“预训练”配合“先验学习”

具身智能的数据瓶颈天然存在，仿真数据不足、真机数据的缺乏，会逐渐解决但也会持续存在。因此，具身智能恐怕不能先穷尽预训练数据，再走向模型探索，而是需要螺旋上升式地进行探索。因此未来我们可能会看到，一个预训练好的模型，用强化学习在一些任务上变得拥有超越人类的能力；而这个模型可能又会在未来更多的数据上——包括增采的和真机探索的——训练得更好。

同样的逻辑，也适用于世界模型，我从不相信我们能够从人类采集好的数据里面训练出一个足够好的世界模型，相反，我们需要机器人真正地自主与世界交互，才能找到真正属于自己的世界模型。我还一直有一个很感兴趣的话题，用一套强化学习目标函数来完成预训练和后训练，但这是来年的事情了。

所有的成长，都是挣扎着向上。

具身智能的2025年，没有一步登天，但是确实越来越强烈地感受到一种未来在召唤。突然想起了前阵子和小龙的一次闲聊。“但也没感觉很遥远了” “确实，不算太远了” “It’s an exciting time. Just needs execution.”是我们对话的结束。

最后想送给所有梦想着让机器人帮助所有人的朋友，一句《马大帅》里的话：“让我们抓紧时间慢慢等吧”。