走向通用智能的大语言模型：具身、符号落地、因果与记忆的统一认知视角

原创于 2025-11-23 20:02:07 发布 · 999 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

人工智能新时代专栏收录该内容

44 篇文章

订阅专栏

『AI先锋杯·14天征文挑战第8期』 10w+人浏览 328人参与

——解读《Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches》

0. 写在前面：这篇综述到底在讲什么？

这篇 2025 年的综述论文，标题很长，但核心问题只有一个：如果真要靠大语言模型（LLM）走向人工通用智能（AGI），缺的到底是什么？(arXiv)

作者的态度很明确：
今天的多模态大模型已经很强，但“聪明得很表面”，距离真正的“通用智能”还差一大截。要补的，不是简单加参数、加数据，而是四个更“认知底层”的原则：

具身（Embodiment）
符号落地 / 符号扎根（Symbol Grounding）
因果（Causality）
记忆（Memory）

整篇文章的逻辑其实是：

先解释 LLM 为什么有潜力 → 再指出它为什么很“脆” → 然后从认知科学和神经科学借四个原则 → 系统梳理这四个原则在 LLM 里的实现路径，并最终给出一个“AGI 认知框架”。

你可以把它理解成：
“如果把 LLM 当大脑，那要把它变成一个真正的智能体，还需要身体、感知、世界模型和记忆系统。”

为了方便在优快云直接使用，下面文章用中文长文形式重写和提炼原论文内容，尽量保持理论深度，但避免清单式罗列，所有表格都已经翻译并重构，图片位置也已经预留（注明对应 Fig. 几）。

1. 大语言模型与 AGI：问题从哪儿开始？

1.1 什么是“人工通用智能”，论文里的定义并不玄学

论文对 AGI 的定义是非常工程化的，并不是那种“像人一样、甚至超越人”的科幻版本，而是具备广泛认知能力、能在多域解决多类复杂任务的智能系统。

作者强调了几个关键特征：

它不是全知全能，而是“有限但通用”：知识有限、带不确定性，却能组合使用，解决很多类新任务。
它需要能处理高层次认知任务：包括感知、上下文理解、规划、推理和常识。
它应该能把在一个场景中学到的东西迁移到另一个场景，而不是“一个任务一个模型”。

重要的是，论文把 AGI 和 Strong AI（强人工智能）做了清晰区分：
AGI 只追求“功能上的通用性和灵活性”，不要求机器真的拥有主观体验、情感、道德感和意识这些心灵哲学层面的属性，那一类才属于 Strong AI 的范畴。

对我们做工程和研究的人来说，这个区分极其实际：
AGI 目标是“认知能力层面上类似人类”，而不是“成一个数字生命体”。

图 1 把 AGI 的特征用一个“放射状”的示意画出来：
一边是目标驱动、自主性和“具身在环境中”；
另一边是持续学习、强泛化和抽象/常识推理；
中间则是“拥有广泛的一般知识”。整体构成了一个相对完整的“通用智能能力圈”。

1.2 大语言模型为什么会被当成 AGI 的候选路线？

作者并不是“吹 LLM 上天”，而是先回到一个朴素事实：人类的认知很大程度上是通过语言和视觉来组织的。

在生物系统中，语言不仅是交流媒介，更是知识获取、组织与操作的核心工具。
语言的结构会反过来塑造我们的思维方式和记忆结构（比如不同语言中对颜色、空间的描述，会改变人们记忆同一场景的方式）。

在这一背景下，多模态大语言模型（MLLM）有天然优势：

训练数据层面，它们吃下了海量的语言、视觉、甚至动作等多模态数据；
目标函数层面，“预测下一个 token / patch”虽然简单，但却迫使模型在内部压缩出一种高维度、极其丰富的世界表征；
使用方式上，它们已经展现了跨任务、跨领域的零样本与少样本能力，这与通用智能的“多任务、多环境”特性天然契合。

在 Fig.2 中，作者把人类智能和 LLM 的“能力扩展机制”进行了逐项对齐：

人类的基因信息 → LLM 中人工写入的物理规律、先验知识模块；
人类的一般常识 → 预训练阶段学到的大规模通用语义；
人类通过专业训练获得的职业技能 → LLM 的下游微调；
人类求助专家、查资料 → LLM 借助 RAG、外部知识库；
人类使用工具拓展能力 → LLM 调用工具、API、外部程序。

这张类比图的价值在于：
它告诉我们，如果把 LLM 看成一个“类人认知架构的核心语言模块”，那在理论上，通过补齐“具身、世界模型、记忆”等部分，是有机会构造出某种类似 AGI 的整体系统的。

1.3 LLM 目前的“通用性”有什么根本性缺陷？

作者并没有被“Emergent Abilities”冲昏头脑。他们给 LLM 的评价是：强，但脆；广，但浅。

核心问题包括：

对上下文的理解往往停留在表层统计相关，缺乏对情境的深刻建模；
能给出“像人说话”的答案，但背后缺的是对世界机制的真正理解；
模型知识主要来自文本数据中的频率与共现关系，很难触及真实世界中的物理约束、因果结构和长期后果。

因此，哪怕模型表面看起来“什么都懂一点”，在需要稳健推理、复杂规划、长期决策时，很容易犯出常识性错误或灾难性的失误。

论文认为，要把这类缺陷往“通用智能”方向弥补，就必须从四个更基础的认知原则入手：具身、符号落地、因果与记忆。

Fig.3 做了一个很清晰的映射：

具身 → 支撑与环境交互、目标驱动行为、自主性；
符号落地 → 支撑上下文理解，把抽象表示真正连到现实世界实体；
因果 → 支撑鲁棒泛化、逻辑和常识推理；
记忆 → 支撑知识积累、持续学习与自我反思。

2. 具身：让大模型“活在世界里”

2.1 什么是具身？不是“装个机器人那么简单”

在认知科学中，“具身”并不是简单的“有个物理身体”，而是一种脑-身-环境一体化的智能观。

论文引用了大量文献，强调：

大脑、身体和环境不是三块分开的东西，而是一个统一的认知系统；
神经可塑性本身就假定大脑是在不断适应身体结构和环境反馈；
许多智能行为（比如行走、抓握、平衡）本身就依赖身体的几何和动力学特性，而不是“纯算力”能推出来的。

所以对 AI 来说，具身并不只是把 LLM 接到机器人上，而是在问：

“这个智能系统是不是通过自身的传感器和执行器，与一个持续变化的环境进行闭环交互，并在交互中形成对世界的理解和行为策略？”

2.2 目标驱动、情景嵌入、自我意识：具身智能的关键要素

具身并不是“被动地感觉和动作”，而是一个围绕“目标”的闭环：

智能体拥有某种内在目标或价值函数，使行为具有方向感；
它能感知环境、感知自身状态，以及感知其他智能体的行为；
它在长期任务中追求“延迟回报”，而不仅仅是对即时奖励或短期反馈做出反射式反应。

作者用 Fig.4 描述了一个场景：
两台原本负责日常任务的智能体，在遇到交通事故时，自发参与救援。它们可能根本没被显式训练过这一具体场景，但因为内部有与人类价值对齐的高层目标（例如“减少伤害、优先救人”），于是可以在不丢失自身主任务本质的前提下，做出一系列合理的自主行为。

这类例子背后的核心观点是：
具身 + 目标导向 + 自主性 + 情景意识 + 自我意识 → 形成所谓“嵌入式（Situated）智能”。

Fig.6 中的自动驾驶场景展示了“情景意识 + 自我意识”如何共同作用：

情景意识让车辆理解：哪里是危险区域，行人在何处，其他车辆状态如何；
自我意识让车辆考虑：自身动态约束（车速、转向极限）、车体尺寸以及可能的损害。

只有两者结合，智能体才能在极短时间内做出**“既符合社会规范，又符合自身物理约束”的动作选择**。

2.3 LLM 如何“被具身化”：从 EmbodiedGPT 到 MultiPLY

论文详细梳理了当前基于 LLM 的具身研究路径，从真实世界机器人到虚拟环境、XR 再到混合场景。

一个代表性例子是 EmbodiedGPT：

在该框架里：

视觉 Transformer 把观察到的视频帧编码成视觉特征；
Embodied-Former 模块把视觉特征和文本指令融合，形成用于高层规划与底层控制的向量表示；
大语言模型负责理解任务、进行语言和高层计划生成，比如“先去拿锅，再打开火”；
策略网络把这些高层计划映射为具体的控制动作序列，与现实世界中的机器人执行器对接。

类似的，还有 MultiPLY 这类更强调多模态、多传感融合的具身大模型：

这些框架的共同目标是：让语言模型不只是“说”，而是“感—想—做”一体化。

当然，论文也非常诚实地指出现实困境：

真实世界具身数据极难采集，成本高、场景易偏；
纯物理仿真虽然更真实，但算力代价极其高，难以覆盖完备场景；
XR 和虚拟世界虽然灵活，却仍然在“真实性、复杂性和可扩展性”之间艰难平衡。

2.4 对 AGI 的理论意义

在作者看来，具身为 LLM 提供的不是“酷炫 demo”，而是三个对 AGI 非常关键的结构性能力：

真正意义上的在线学习与持续适应：通过不断交互而不是只靠离线文本更新世界模型；
把抽象语言与传感-动作闭环绑定起来：为后面的符号落地和因果建模提供真实体验基础；
为价值对齐与安全性提供更细粒度的控制点：通过目标和约束体现在行动层面，而不是仅停留在文本输出层。

从这个视角看，具身并不是“未来想象”，而是把 LLM 从“离线世界模型”推进到“在线嵌入式智能体”的必要条件之一。

3. 符号落地：让“词”真正指向“世界”

3.1 符号落地问题：为什么“只看文本”是不够的？

符号落地（symbol grounding）这个概念源于经典的“符号落地问题”：
如果一个智能系统内部只有符号之间的关系（比如字与字之间的共现），那这些符号如何真正“指向”外部世界中的东西？

在纯语言模型中，词与词的关系主要来自统计共现和语法结构，看起来能很好拟合人类语言，但这会带来几个隐患：

模型可以在形式上操纵符号，却并不真正理解其语义；
在面对模糊、文化依赖、隐喻类概念（比如“面子”“气场”）时很容易产生不稳定甚至荒谬的推理；
无法可靠区分“文本中常一起出现”与“现实世界中存在稳定关系”的区别。

因此，论文主张：
如果想让 LLM 接近 AGI，它必须在某种意义上把内部表示“扎根”到真实世界的实体、行为、场景与规则上。

3.2 论文中的符号落地方法谱系

作者在第 4 节用相当大的篇幅综述了 LLM 中的主要落地路径，并在 Table 1 中做了一个对比总结。

下面是根据论文 Table 1 翻译和重构的一个概要表格，方便在优快云中直接使用（对应原文 Table 1）：

表 1 大语言模型中符号落地方法的主要类型及对比（对应原论文 Table 1）

方法类别	核心思想（简述）	代表性工作（示例）	主要优势	主要局限
知识图谱（KG）	用图结构显式表示“符号–实体–关系”，把概念与现实世界对象、事件、属性连接起来。	[347]，[349] 等	天然适合表示层次和关系；易与 LLM 集成；结构透明、便于解释与推理。	构建和维护成本高；对模糊概念和文化依赖型概念支持较差；扩展到超大规模领域较费力。
基于本体的提示（Ontology-driven prompting）	利用本体中定义好的概念、关系和规则自动生成提示，显式引导 LLM 在特定语境下解释和使用符号。	[359]，[360] 等	能在具体任务中显式约束与细化模型行为；可叠加在其他落地方法之上；可控性较好。	难以覆盖所有概念和场景；依赖专家构建或模型辅助构建本体；扩展性和自动化程度受限。
向量空间嵌入	在高维向量空间中学习符号之间的语义分布和相似性，通过几何关系隐式表示“意义”。	[361]，[362] 等	高度可扩展；可以发现人类未知的潜在关系；与深度学习框架高度兼容，实现简单。	依赖大规模高质量数据；容易学习到伪相关；内部表示难以解释，很难判断哪些符号“落地失败”。
主动探索与交互	通过具身智能体在环境中的试探、操作与反馈，让符号与真实的感知和动作经历绑定。	[107]，[363] 等	符号与世界有直接耦合，形成物理上合理的表示；尤其适合学习低层次感知与动作相关的概念。	训练成本高、时间长；若单独使用，可能只覆盖部分概念；对纯抽象概念（数学、公理）支持有限。
生成式 AI 辅助落地	利用 LLM、VLM、VLA 等生成模型合成数据或结构，自动补充符号与实体之间的联系。	[353]，[354] 等	不依赖大量人工规则；极易扩展；能在多模态空间中创造丰富的训练样本和候选关系。	高度不可解释，容易产生“幻觉式”伪联系；验证和过滤生成关系需要额外机制；信任度问题突出。
外部知识增强落地	通过 RAG 等机制，引入百科、数据库、领域知识库中已有的结构化或半结构化知识。	[286]，[364] 等	可以快速覆盖大量领域；与检索系统、现有知识库生态高度兼容；便于与其他方法组合。	不同知识源之间的表示差异会带来不一致；外部知识可能被篡改或污染，造成安全与稳健性隐患。

从理论角度看，以上方法可以看作是三种范式的组合：

显式的符号–实体图结构（KG / Ontology / 逻辑规则）：强调解释性和可控性；
隐式的分布式表示（嵌入 / 生成式模型）：强调可扩展性和自发现能力；
交互式的体验落地（Embodiment / RL）：强调与世界的闭环耦合。

真正有潜力走向 AGI 的方案，往往不是单一范式，而是多种落地方式的混合和循环增强：
LLM 既能用 KG 约束高层语义，又能用嵌入学习隐式关系，再通过具身交互不断校准，最后再把新知识写回外部知识库。

4. 因果：从“相关”到“可以干预、能想象反事实”

4.1 相关 vs 因果：LLM 的天花板在哪里？

一个绕不过去的问题是：
基于大规模共现数据训练出来的模型，天生擅长“相关性捕捉”，但天生不擅长“因果结构推断”。

论文依托因果推断的经典三层级：

关联层（Association）：看到 A，就知道 B 通常会一起发生；
干预层（Intervention）：如果我主动做 X，会改变 Y 吗？
反事实层（Counterfactual）：如果当时没做 X，而是做了 Z，结果会怎样？

当前的大语言模型在“关联层”表现惊人，但在“干预”和“反事实”层面几乎完全依赖训练数据中已有的描述，而不是自身真正的因果模型。

4.2 论文中的因果建模方法对比

作者将因果相关的方法大致分成：

纯深度学习范式
知识图谱和图结构
结构因果模型（SCM）
物理世界模型 / 物理引擎辅助

并在 Table 2 中具体比较了“能处理的因果层级、优势和弱点”。

表 2 不同因果建模方法在因果层级上的能力及对比（对应原论文 Table 2）

注：Assoc. = 关联层；Interv. = 干预层；Count. = 反事实层。

方法类别	Assoc.	Interv.	Count.	主要优势	主要局限
深度学习（DL）	是	否	否	不需要先验领域知识；高度可扩展；易于在统一框架下处理多模态大数据。	只能学到相关关系，很难区分相关 vs 因果；在分布外环境和分布漂移下易产生严重错误甚至灾难性失效。
知识图谱（KG）	是	部分	否	能表示复杂关系网络；易与深度模型结合；利于在局部结构上执行简单干预式推理。	很多数据类型难以用图结构直接建模；因果方向往往需要人工指定；扩展和校验成本高。
结构因果模型（SCM）	是	是	是	可以在统一框架下处理关联、干预和反事实；能做“如果……会怎样”的反事实 reasoning。	需要对关键变量和其依赖关系有较完整的先验知识；在高维现实场景中难以构建和扩展。
物理模型 / 物理世界模型	是	是	是	利用已有物理定律和模拟器，高度可扩展；适合建模物体、运动、碰撞等直观物理因果关系。	计算代价巨大；需要知道系统涉及的状态变量与动力学方程；对社会、心理类因果关系适用性有限。

从 AGI 视角看，单一方法几乎都不够：

只靠深度学习，难以在决策时做显式反事实推理；
只靠 SCM，又无法应对真实世界中的高维、开放环境；
只靠物理模型，难以涵盖社会规则、心理和制度层面的因果结构。

因此，论文更倾向于一种“世界模型 + 因果结构 + LLM 接口”的混合范式：
LLM 通过语言与世界模型交互，而因果推理模块则负责在内部维持可干预、可反事实的结构化表征。

5. 记忆：从“长上下文”到真正的记忆系统

5.1 记忆类型：感知、工作记忆与长时记忆

论文采用了经典的三层记忆划分：

感知记忆（Sensory Memory）：极短暂、近乎瞬时的感知缓存；
工作记忆（Working Memory / 短时记忆）：当前任务中需要“挂在心上”的信息；
长时记忆（Long-term Memory）：包括语义记忆、情景记忆与程序性记忆。

并用 Fig.15 画出了一个类似信息流图的结构：
外部感知流入感知记忆，被过滤后进入工作记忆；经由认知处理后，一部分被写入长时记忆，未来又可以被检索回来支持新的认知任务。

5.2 在 LLM 中如何“实现”这些记忆？

作者做了一个非常工程化的 mapping：

感知记忆：
对应的是各种输入缓冲，比如传感器读数的硬件 / 软件缓冲区、实时流数据的短期缓存；
它的作用是保证感知流的连续性，并在“后端系统需要一些处理时间”的情况下，不丢失关键信息。
工作记忆：
在 LLM 里非常自然地对应 上下文窗口 + Transformer 中的注意力层；
当前 token、句子片段、临时中间结论，都可以看成是“暂时挂在工作记忆里的活动信息”；
它过滤必须保留的内容，决定哪些信息被重复关注、哪些可以遗忘。
语义记忆：
大模型预训练过程中学到的“世界知识”、“概念网”、“一般事实”就是典型的语义长时记忆；
这一部分以权重、嵌入向量、子结构形式固化在模型中，也可以通过知识图谱、RAG、数据库等外部结构不断扩展。
情景记忆（Episodic Memory）：
记录“具体发生过什么、在什么时候、在什么场景下”的信息；
在 LLM 中可以通过日志、对话历史、任务执行轨迹等外部介质保存，再通过检索或提示注入上下文；
也可以通过 fine-tuning 把特定任务轨迹固化进模型。
程序性记忆（Procedural Memory）：
对应“怎样去做”的知识，比如多步推理模板、规划策略、机器人操作技能等；
既可以通过大模型在训练中隐式学到，也可以通过神经符号方法显式编码为规则、计划图，再让 LLM 调用。

5.3 论文中的记忆方法总结表

这些 mapping 最终被整理进 Table 3 中，下面给出中文重构版，方便直接引用（对应原论文 Table 3）：

表 3 记忆类型及其主要功能与在 LLM 中的实现方式（对应原论文 Table 3）

记忆类型	主要功能（在认知系统中的角色）	在 LLM / AI 系统中的典型实现方式	示例工作（原文中的代表性引用）
感知记忆 Sensory	短暂保存来自各类传感器的原始信号，为后续处理提供连续输入；相当于“感知缓冲区”。	各类 Buffered I/O、硬件/软件缓冲寄存器、仿生感知缓存机制等，用于缓存短时输入流。	[517]，[522]，[523]
工作记忆 Working	对信息进行筛选、维持任务相关内容；支撑当前的推理、决策和规划过程。	Transformer 的注意力层与上下文窗口；显式的中间链式推理（CoT）缓存；短期外部内存模块。	[494]，[504]，[530]
语义记忆 Semantic*	存储一般性的事实、概念、规则和世界知识；为常识推理和抽象思维提供“背景模型”。	预训练权重中的分布式语义表示；知识图谱、因果图作为结构化子模块；RAG/向量库等外部知识源。	[468]，[543]，[544]
情景记忆 Episodic*	记录具体事件及其时间、地点、环境、情绪等上下文；支持反思、自传式记忆和基于经验的调整。	任务轨迹和交互日志的存储与检索；把历史片段选入上下文作为提示；基于特定数据集微调情景知识。	[545]，[546]
程序性记忆 Procedural*	存储执行复杂技能所需的步骤和模式；让智能体在无需显式推理的情况下快速执行动作或解决问题。	利用 LLM 学习行动序列与策略；用神经符号方法显式编码任务流程；从环境交互中提取和固化技能。	[295]，[547] 等

在 AGI 视角下，真正的挑战在于：
如何让这几种记忆协同工作，而不是一堆彼此孤立的缓存和数据库。

例如：

当 LLM 在对话中反思“上次我们做这个实验时失败在哪”，它需要检索情景记忆、引用语义记忆中的理论，再更新程序性记忆中的“做法”；
当具身智能体在陌生环境中行动时，必须在十分有限的工作记忆下，合理调用长时记忆中的知识，同时不断更新情景和程序性记忆。

论文在后面的框架部分（Section 7）中，将记忆系统作为 AGI 体系结构的“纵向主干”，贯穿感知、推理和行动各个环节。

6. 四大原则如何组合成一个 AGI 认知框架？

6.1 概念整合：从“孤立能力”走向“统一架构”

在第 7 节中，作者尝试给出一个基于具身、落地、因果和记忆的 AGI 概念框架，重点不是某个具体算法，而是不同认知组件之间的组织关系。

可以用这样一种理解方式来重述它：

具身提供了智能体与世界交互的“接口层”：
包括传感器、执行器、环境模型、任务目标与约束。
符号落地提供了“语言/符号–世界”的对齐机制：
把 LLM 内部的高维表示与具身交互的感知和动作经验对上号。
因果模块提供了“结构化世界模型”：
支持在不同假设、干预和反事实场景下做出稳定推理，而不是仅靠统计相关。
记忆系统在时间维度把这一切串起来：
让智能体不仅能处理当前输入，还能累积经验、自我调整与长期学习。

从图上可以想象为：
具身模块在底部与环境相连，记忆系统贯穿全局，符号落地连接语言与感知/动作，因果模块则像是“世界的骨架”，在智能体内部提供一种稳定的结构化认知基座。

6.2 LLM 在这个框架中的定位

论文并没有把 LLM 神化为“整个 AGI 系统”，而是更现实地把它放在一个类似“认知核心”的位置，主要负责：

对多模态信息进行统一编码和解释；
以语言为接口，实现多模块之间的信息交换（比如读取记忆、调用工具、查询世界模型）；
利用其强大的模式识别能力，在不确定和开放场景下给出高质量的先验假设和候选方案。

在这样的架构中，LLM 不再只是“聊天模型”，而更像是：

“一个高度可塑的、用语言编程的认知中枢”，
通过具身接口与环境打交道，通过记忆与过去连接，通过因果模型与世界结构对齐，通过符号落地把语言和世界牢牢绑在一起。

7. 对理论的再提炼：这篇综述真正说了哪些“硬道理”？

如果把论文的细节全部展开，会非常庞杂。这里尝试把其理论核心压缩成几条对研究和工程都具有指导意义的“硬结论”（仍然避免清单式枚举，而是用连续叙事的方式说清楚）。

首先，这篇文章实际上是在纠正一个常见误区：
通用智能不是简单的能力大杂烩，而是在多个认知维度上的结构性协调。

LLM 的成功展示了“语言中心主义”的巨大威力，但也暴露出仅靠离线文本学习很难获得足够深入的世界理解。具身让模型真正“沉下去”和世界互动，符号落地则确保模型内部的语义不再只是漂浮在文本之上的相对关系，而是能牢牢钩住具体的感知与行为；因果建模让智能体不再局限于表面的模式匹配，而能在假设干预和反事实场景中保持推理的一致性；记忆系统则保证了这一切不会被困在“单次对话”或“一段短上下文”中，而能在时间轴上连续扩展和修正。

其次，论文在方法论上隐含了一种非常值得重视的观点：
不要把某一个模块或技术路线当成“AGI 的唯一钥匙”，而要关注不同认知功能之间的接口与配合。

具身研究如果只停留在收集 egocentric 视频并训练 EmbodiedGPT，那本质上还是在做“更大的监督学习”；符号落地如果只依赖知识图谱或本体，又会陷入人工建模的扩展瓶颈；因果建模如果脱离大模型的表达能力，很难在开放世界中真正落地；而记忆如果只是“把历史往上下文里硬塞”，又会马上受限于上下文窗口大小。只有在统一框架下，让这些组件彼此约束、互相增强，才有可能突破当前“强但脆”的 LLM 天花板。

第三，从认知科学到工程实现的映射，论文给出了一个非常清晰的路线：

把人类认知中的一些关键属性（具身、落地、因果、记忆）抽象为“原则”，而不是具体算法；
在 AI 系统中，不强求完全仿生，而是寻找在工程上“功能等价”的实现方式；
通过大量现有工作进行归纳，把它们投影到这四个原则上，形成一个“认知维度 × 工程技术”的二维坐标系。

这对后续研究的价值，在于提供了一套**“评估一个新方法到底补了哪块认知短板”的框架**。比如：

某个新方法声称提升了 LLM 的长期推理能力，那么它在这个框架中，是通过强化记忆系统？还是通过更好地建模因果结构？抑或是通过具身数据让符号落地更扎实？
某个机器人系统表现出更自然的交互行为，它是因为有了更细腻的情景感知、更稳健的因果规划，还是因为程序性记忆被显式建模和优化？

最后，对“能否靠 LLM 实现 AGI”这个争议话题，论文的态度可以概括为：谨慎的乐观主义 + 强调补课。

它既不认为“LLM 一扩就自然变成 AGI”，也没有站在“LLM 肯定做不了 AGI”的悲观阵营，而是指出：
如果我们愿意从具身、符号落地、因果和记忆这几个基础原则入手，把 LLM 和更完整的认知架构结合起来，那么 LLM 完全有可能在 AGI 路线上扮演核心角色。

8. 小结：如果你要基于这篇文章继续做事，可以怎么思考？

从优快云技术写作和实践者视角，这篇综述给我们的启发更多是方向性的：

如果你在做具身智能 / 机器人 + LLM：
可以对照这篇论文，把自己的系统放到“具身–落地–因果–记忆”的四维空间中，看究竟补了哪一块、哪一块仍然空着，以及是否有可能在架构层面引入因果世界模型或更系统的记忆机制。
如果你在做RAG、知识图谱、外部工具集成：
可以不把这些当作“工程 patch”，而是把它们看成符号落地和语义记忆的基础设施，思考如何让它们与 LLM 内部表示形成闭环，甚至通过具身或交互数据不断更新。
如果你在做推理增强、链式思考、工具代理（Agent）：
这篇文章背后的因果框架和记忆视角，会帮助你理解“为什么有些任务只靠 prompt 和 CoT 永远不稳”，从而进一步考虑引入显式因果结构、任务图或长期 episodic memory。

站在更高一点的抽象层面，这篇论文提醒我们：