具身智能：1.2 莫拉维克悖论（Moravec‘s Paradox）：为什么下围棋容易，叠衣服难？

最新推荐文章于 2026-01-08 09:30:54 发布

原创最新推荐文章于 2026-01-08 09:30:54 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

2 篇文章

订阅专栏

"要让计算机在智力测验或下棋中表现出成人水平的智力是相对容易的，但要让它们具备一岁小孩般的感知和行动能力，却是难以置信地困难或根本不可能。" —— 汉斯·莫拉维克 (Hans Moravec), 1988

2016 年，DeepMind 的 AlphaGo 在围棋棋盘上击败了人类世界冠军李世石。那一刻，全世界都在惊呼通用人工智能（AGI）即将到来。然而，鲜少有人注意到的是，如果把李世石换成一个两岁的孩子，把复杂的棋局换成“把一堆乱糟糟的衣服叠整齐”，AlphaGo 背后的超级计算机将束手无策。

甚至直到今天，哪怕是最先进的机器人，在处理一件柔软、变形、自遮挡的 T 恤时，其表现往往还不如一个笨手笨脚的幼儿。

这种反直觉的现象——高级推理容易，低级感知运动难——被称为“莫拉维克悖论”。理解这一悖论，是理解具身智能（Embodied AI）真正挑战的第一步。

为什么会出现这种悖论？汉斯·莫拉维克给出的解释是基于进化论的。

人类的智能就像一座冰山。浮在水面上的是我们显意识能感知到的“高级认知能力”，如逻辑推理、数学证明、下棋、编程。这些能力在人类进化史上出现的时间非常晚（不到 1 万年），它们虽然看起来很难，但在计算上，它们往往基于清晰的规则和符号逻辑，很容易被算法逆向工程。

而冰山在水面之下的巨大基座，是我们无意识的“感知运动能力”——识别面孔、在崎岖路面上保持平衡、伸手抓住飞来的球。这些能力是经过数亿年自然选择残酷优化的结果。我们的视网膜处理边缘检测的效率、小脑控制肌肉协同的精妙程度，早已经被写入了基因层面的“专用硬件”中。

对 AI 而言：

作为工程师，我们不能只停留在进化论的解释上。让我们从状态空间的角度来剖析两者的本质区别。

围棋虽然复杂，但它在数学上是“完美”的。

状态空间： 虽然 $19 \times 19$ 的棋盘变化数高达 $10^{170}$ ，但它是离散的。棋子要么黑，要么白，要么空，不存在“半黑半白”或“稍微偏左一点”的状态。
环境模型： 是确定性的。如果你在一个位置落子，结果是百分之百确定的，不存在“手滑了”或者“棋盘突然变软了”的情况。
信息： 是完全可观测的。整个棋局的信息就在你眼前，没有任何隐藏变量。

这本质上是一个搜索问题。只要算力足够大，蒙特卡洛树搜索（MCTS）就能找到最优解。

而在物理世界叠一件 T 恤，机器人面临的是一场数学噩梦。

状态空间： 它是连续的且无限维的。一件衣服是一个非刚体或可变形物体。在数学上，你需要描述衣服表面无数个点的三维坐标、法向量以及它们之间的张力关系。
环境模型： 是高度随机且复杂的。你捏住衣角稍微用力一点，整件衣服的形状就会发生不可预测的坍塌。物理引擎要模拟真实的布料摩擦和空气阻力极其困难。
信息： 是部分可观测的。当你抓起衣服时，衣服的背面被折叠在里面，深度相机根本看不到。机器人必须基于极其有限的视觉信息，去“猜测”衣服的整体拓扑结构。

在互联网 AI（如 ChatGPT）中，输入是干净的 Token，输出也是 Token。但在具身智能中，我们面临着从传感器到执行器的巨大鸿沟。

想象一下叠衣服的过程：

感知： 机器人看到的不是“袖子”这个概念，而是一团混乱的 RGB 像素和充满噪声的深度点云。它必须从这些杂乱的数据中提取出语义信息（Semantic Information）。
物理交互： 当机械臂接触衣服时，衣服会发生形变。这种形变反过来又改变了感知输入。
闭环反馈： 这是一个毫秒级的闭环反馈。如果感知延迟了 100ms，或者手部的力控误差了 1N，衣服可能就滑落了。

这就是莫拉维克悖论的工程实质： 处理抽象符号消耗的算力，远少于处理真实物理世界感知与控制所需的算力。