前言:
最近我想开一个关于具身智能,从入门到精通的新坑,本来我是在写人工智能的基础教学与哲学性思考的书,但是这个很难写,几乎所有关乎个人认知提升和工哲结合的书,都需要作者有很高的文理水平,思想高度等等。对我而言,由于我暂时没有这种高度,所以写起来相当费劲,但是我一定会在2027年之前写完这本书,给大家带来更多的技术教学与深度思考机会。之所以开一个关于具身智能的章节,不仅是因为现在的趋势是具身智能,更多的是,我觉得真正的人工智能,要和人一样,我们有大脑,能说话,这是LLM,我们有眼睛,这是CV,我们可以把我们看到的描述出来,这是VLM,同时,我们可以触摸,我们可以基于我们看到的,感受到的做出动作,这就是VLA,这才是我心目中的人工智能,放心,不会很难,我会从基础的开始讲到深入,只要你有基本的深度学习基础即可。
“Nothing is in the intellect that was not first in the senses.” “凡在理智中的,无不先在感官之中。” —— 托马斯·阿奎那 (Thomas Aquinas)
当我们谈论人工智能时,我们往往过度沉迷于“大脑”的算力与参数,却忽略了容纳这个大脑的“容器”。
在这一节,我们要明白:仅凭语言模型(LLM),哪怕参数量再大,也无法触及“完整的智能”。
1. 符号接地问题 (The Symbol Grounding Problem)
想象你从未见过“苹果”。现在我给你一本字典,你要查“苹果”的定义。 字典说:“苹果是一种圆形的、红色的水果。” 你不知道什么是“圆形”,于是去查“圆形”。 字典说:“圆形是所有点到中心距离相等的平面形状。” 你不知道什么是“点”,什么是“距离”……
你发现了吗?如果你只有文本数据,你永远是在用符号解释符号。这就像是一个无限循环的文字游戏,你永远无法跳出这个循环去触碰真实的物理实体。这就是著名的符号接地问题 (Symbol Grounding Problem)。
-
ChatGPT (Disembodied AI):它就像那个只读过字典的人。它知道“苹果”和“红色”在统计概率上经常一起出现(
很高),但它不知道红色的波长射入视网膜的感觉,也不知道咬开苹果时脆裂的声音。它的知识是无根的 (Ungrounded)。
-
具身智能 (Embodied AI):它的知识来自于传感器与物理世界的交互。当机械臂抓起一个苹果,它的视觉传感器捕获了颜色,触觉传感器感受到了硬度,本体感受器(Proprioception)记录了重量。此时,“苹果”这个符号不再是一个 Token ID,而是一组物理感知的集合。

结论一:没有身体,符号就没有物理意义,只有统计相关性。
2. 只有“做”,才能懂“因果” (Intervention & Causality)
我们深知 Association (关联) 与 Causality (因果) 的区别。这是 Judea Pearl 在《The Book of Why》中强调的核心。
目前的 LLM 是基于海量文本训练的“观察者”。它观察到了现象 和现象
经常同时发生,于是它学会了预测。
但是,观察永远无法确认因果。公鸡打鸣(X),太阳升起(Y)。LLM 可能会认为公鸡叫导致了太阳升起(我只是举个例,大模型肯定不会这么笨,但是在训练的某个节点,大模型或许真的有这种认知)
只有拥有身体的智能体,才能执行 Intervention (干预) 操作,也就是 Pearl 所说的 do 算子:
-
具身实验:机器人可以做一个动作——“杀掉这只公鸡(do(X'))”,然后看太阳是否还会升起。如果太阳照常升起,机器人就证伪了之前的假设,学到了真正的物理因果律。
结论二:ChatGPT 只能看见世界的投影(Correlation),只有具身智能能通过干预(Interaction)触摸世界的骨架(Causality)。
3. 物理惩罚是“幻觉”的解毒剂
大模型最著名的问题是 Hallucination (幻觉)。为什么会产生幻觉?从损失函数的角度看,是因为代价太低。
在语言生成中,说一句胡话(比如“林黛玉倒拔垂杨柳”)的代价,仅仅是一个 Token 的 Log-probability 低一点而已。这种“软约束”不足以让智能体敬畏真理。
但在物理世界中,物理定律(Physics Laws)是最残酷的 Loss Function。
-
如果一个机器人在仿真中“幻觉”它可以穿墙,现实会给它一个巨大的反作用力,撞坏它的电机。
-
如果一个机器人以为它能悬空,重力会立刻教它做人。
这种不可违抗的物理约束,迫使具身智能必须学习真实的物理表征。身体的存在,为智能引入了“生存”的概念。对于 ChatGPT,错误只是一个字符串;对于具身智能,错误意味着“死亡”(硬件损坏、任务失败)。
结论三:身体是智能的“锚”。物理世界的不可协商性,限制了思维的无限发散,迫使智能回归真实。

4. 智能演化的真相:移动即智能
从生物演化的第一性原理来看,大脑是为了“运动”而生的。
自然界中有一种生物叫海鞘 (Sea Squirt)。它在幼年期在海洋中游动,寻找附着点,这时候它有大脑和神经系统。一旦它找到了岩石并固定下来(不再需要移动),它做的第一件事就是把自己的大脑吃掉。
为什么?因为维持大脑的能耗太高,如果不需要处理复杂的运动(Sense-Act Loop),大脑就是累赘。
-
人类智能的本质:我们的逻辑推理、语言能力,本质上是运动控制能力的抽象与外溢。我们在脑海中“模拟”未来的行动,这便是思考。
-
AI 的进化:我们要实现的 AGI (通用人工智能),不应该是一个被切断了手脚、泡在营养液里的“超级大脑”,而应该是一个能够像人一样,通过行动去丈量世界、通过反馈去修正认知的实体。
本节总结
具身(Embodied)不仅仅是给 AI 装上腿和手,它是智能存在的根本形式。
-
感知层面:身体解决了符号接地问题,让 Token 对应到物理实体。
-
认知层面:身体提供了干预世界的能力,让智能体从相关性走向因果性。
-
演化层面:智能是为控制身体适应环境而涌现的副产品。
ChatGPT 是一个读完了人类图书馆的博学者,但它从未走出过图书馆的大门。而具身智能,是那个推开门,走进风雨中,亲手种下一棵树的孩子。

被折叠的 条评论
为什么被折叠?



