"要让计算机在智力测验或下棋中表现出成人水平的智力是相对容易的,但要让它们具备一岁小孩般的感知和行动能力,却是难以置信地困难或根本不可能。" —— 汉斯·莫拉维克 (Hans Moravec), 1988
2016 年,DeepMind 的 AlphaGo 在围棋棋盘上击败了人类世界冠军李世石。那一刻,全世界都在惊呼通用人工智能(AGI)即将到来。然而,鲜少有人注意到的是,如果把李世石换成一个两岁的孩子,把复杂的棋局换成“把一堆乱糟糟的衣服叠整齐”,AlphaGo 背后的超级计算机将束手无策。
甚至直到今天,哪怕是最先进的机器人,在处理一件柔软、变形、自遮挡的 T 恤时,其表现往往还不如一个笨手笨脚的幼儿。
这种反直觉的现象——高级推理容易,低级感知运动难——被称为“莫拉维克悖论”。理解这一悖论,是理解具身智能(Embodied AI)真正挑战的第一步。
1. 进化的冰山:不仅仅是时间问题
为什么会出现这种悖论?汉斯·莫拉维克给出的解释是基于进化论的。
人类的智能就像一座冰山。浮在水面上的是我们显意识能感知到的“高级认知能力”,如逻辑推理、数学证明、下棋、编程。这些能力在人类进化史上出现的时间非常晚(不到 1 万年),它们虽然看起来很难,但在计算上,它们往往基于清晰的规则和符号逻辑,很容易被算法逆向工程。
而冰山在水面之下的巨大基座,是我们无意识的“感知运动能力”——识别面孔、在崎岖路面上保持平衡、伸手抓住飞来的球。这些能力是经过数亿年自然选择残酷优化的结果。我们的视网膜处理边缘检测的效率、小脑控制肌肉协同的精妙程度,早已经被写入了基因层面的“专用硬件”中。
对 AI 而言:
-
下围棋(Go): 是一个最近才发明的人造问题,规则明确,没有噪声。
-
叠衣服(Folding): 是一个物理问题,涉及对抗重力、摩擦力、材料形变,这是生物体花费数亿年才解决的生存问题。
2. 数学视角的差异:离散完美 vs. 连续混沌
作为工程师,我们不能只停留在进化论的解释上。让我们从状态空间的角度来剖析两者的本质区别。
A. 围棋:有限、离散、完全可观测
围棋虽然复杂,但它在数学上是“完美”的。
-
状态空间: 虽然
的棋盘变化数高达
,但它是离散的。棋子要么黑,要么白,要么空,不存在“半黑半白”或“稍微偏左一点”的状态。
-
环境模型: 是确定性的。如果你在一个位置落子,结果是百分之百确定的,不存在“手滑了”或者“棋盘突然变软了”的情况。
-
信息: 是完全可观测的。整个棋局的信息就在你眼前,没有任何隐藏变量。
这本质上是一个搜索问题。只要算力足够大,蒙特卡洛树搜索(MCTS)就能找到最优解。
B. 叠衣服:无限、连续、非刚体
而在物理世界叠一件 T 恤,机器人面临的是一场数学噩梦。
-
状态空间: 它是连续的且无限维的。一件衣服是一个非刚体或可变形物体。在数学上,你需要描述衣服表面无数个点的三维坐标、法向量以及它们之间的张力关系。
-
环境模型: 是高度随机且复杂的。你捏住衣角稍微用力一点,整件衣服的形状就会发生不可预测的坍塌。物理引擎要模拟真实的布料摩擦和空气阻力极其困难。
-
信息: 是部分可观测的。当你抓起衣服时,衣服的背面被折叠在里面,深度相机根本看不到。机器人必须基于极其有限的视觉信息,去“猜测”衣服的整体拓扑结构。
3. “具身”的真正代价:感知与行动的闭环
在互联网 AI(如 ChatGPT)中,输入是干净的 Token,输出也是 Token。但在具身智能中,我们面临着从传感器到执行器的巨大鸿沟。
想象一下叠衣服的过程:
-
感知: 机器人看到的不是“袖子”这个概念,而是一团混乱的 RGB 像素和充满噪声的深度点云。它必须从这些杂乱的数据中提取出语义信息(Semantic Information)。
-
物理交互: 当机械臂接触衣服时,衣服会发生形变。这种形变反过来又改变了感知输入。
-
闭环反馈: 这是一个毫秒级的闭环反馈。如果感知延迟了 100ms,或者手部的力控误差了 1N,衣服可能就滑落了。
这就是莫拉维克悖论的工程实质: 处理抽象符号消耗的算力,远少于处理真实物理世界感知与控制所需的算力。
4. 思考:为什么现在重提莫拉维克悖论?
在大语言模型(LLM)爆发的今天,重提这个悖论尤为重要。
很多人误以为,既然 GPT-4 已经能通过图灵测试,能写代码,能做复杂的逻辑推理,那么让机器人做家务应该指日可待了。
错了。
LLM 是“大脑”的模拟,是皮层(Cortex)的模拟。但具身智能需要的是“大脑 + 小脑 + 脊髓 + 眼睛 + 手”的整体协调。
-
GPT-4 可以写出完美的“叠衣服步骤指南”(Step 1, Step 2...)。
-
但 GPT-4 无法告诉关节电机:在接触丝绸材质的瞬间,你的 PID 控制器的 $K_p$ 参数应该调整为多少,才能既夹住衣服又不把它弄皱。
解决莫拉维克悖论,不能仅靠单纯堆砌 LLM 的参数量,我们需要:
-
更好的表征(Representation): 如何让机器理解 3D 几何与物理属性?
-
更强的控制(Control): 如何在噪声和延迟中实现鲁棒的动作?
-
世界模型(World Model): 机器需要像人类一样,在脑海中模拟物理世界的运作规律。
这一章如果只停留在“工程难度”的对比上,未免流于表面。莫拉维克悖论本质上是一次对“智能”定义的哲学拷问。
它挑战了西方哲学长久以来“重精神、轻肉体”的传统。
哲学引思:笛卡尔的幽灵与身体的必要性
莫拉维克悖论不仅仅是一个工程路障,它实际上是对人工智能发展史上一段漫长的“哲学歧路”的纠正。
1. 对“笛卡尔二元论”的反叛
自 17 世纪笛卡尔提出“我思故我在”以来,西方科学界和哲学界一直倾向于一种身心二元论:认为心灵是高贵的、理性的、负责计算和推理的;而身体只是一个机械的容器,负责执行心灵的指令。
早期的 AI(符号主义,GOFAI)完全继承了这一思想。甚至连图灵测试本身也是“去具身化”的——把机器藏在黑箱子里,只看文本,不看行为。
莫拉维克悖论给了这种傲慢致命一击。它告诉我们:并没有独立于身体之外的所谓“纯粹智能”。 智能不是在大脑真空中发生的逻辑运算,而是生物体为了在物理世界中生存,通过感知和行动与环境进行的一种动态耦合。
2. 人类中心主义的盲区
为什么我们会觉得下围棋难、叠衣服容易?这反映了人类的一种认知偏差。
我们倾向于用主观努力的程度来衡量智能的高低。
-
下围棋需要我们调动前额叶皮层,绞尽脑汁,我们会觉得“好难”。
-
走路、拿杯子、叠衣服,是由我们的基底神经节和小脑在潜意识中自动完成的,我们感觉“毫不费力”。
但从上帝(或者进化)的视角来看:
-
逻辑推理只是人类最近几万年才进化出的“新功能”,就像电脑上刚装的一个 App,虽然界面花哨,但底层代码很简单。
-
而感知运动系统是经过数亿年进化的“操作系统内核”,代码极其庞大、复杂且健壮。
AI 的发展历程,实际上是在倒着重演人类的进化史。 我们先造出了会做微积分的“教授”(计算机,大语言模型),现在才开始艰难地试图造出一个会走路的“蟑螂”(波士顿动力,宇树机器人)。
3. 符号落地(Symbol Grounding)与缸中之脑
这就引出了本书最核心的一个哲学隐喻:ChatGPT 就像是一个“缸中之脑”。
它阅读了关于“苹果”的亿万条文本,知道“苹果是红色的”、“苹果好吃”、“牛顿被苹果砸了”。但它从未感受过苹果拿在手里的重量,从未闻过苹果的香气,从未体验过牙齿咬碎果肉时的脆感。
对于 ChatGPT 来说,“苹果”只是一个高维向量空间中的数学坐标,而不是一个真实的物理实体。这就是著名的符号落地问题(Symbol Grounding Problem):如果符号不与物理世界的感知运动经验相连接,它们真的有意义吗?
具身智能的终极目标,就是让符号落地。我们要给这个“缸中之脑”装上眼睛和手,让它明白,当它输出“抓取”这个 Token 时,不仅仅是屏幕上出现一个词,而是真实的电机电流在涌动,真实的物理世界因此发生了改变。
"身体不是智能的容器,身体是智能的土壤。"
1114

被折叠的 条评论
为什么被折叠?



