从第一性原理看大模型Agent技术

原创

已于 2024-05-01 23:17:36 修改 · 1.6k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #自然语言处理

于 2024-01-14 21:34:35 首次发布

本文探讨了大模型Agent技术的发展，从第一性原理出发，分析了LLM Agents的演进，包括Prompt工程、外挂、分解与组合、反馈机制等。文章指出，面向目标架构是智能体技术的核心，并预测未来Agent技术将有重大突破。同时，文中提到了多智能体系统、面向目标架构的重要性以及前瞻性分析，强调了学习能力、输入感知、输出执行等方面的发展趋势。

本文由下面的内部分享视频文字稿重新整理而成

从第一性原理看大模型Agent技术

第一性原理（First Principles Thinking）是一种解决问题和创新的思维方式，它要求我们回到问题的最基本的真理或事实上，然后从这些真理出发，通过逻辑推理来构建复杂的想法或解决方案。这种方法鼓励我们忽略传统的假设和现有的认知，而是通过探索最基本的元素来重新思考问题。

随着大规模模型技术的兴起，我们正处于一个崭新的智能时代的黎明。我们有一个大胆的预测，未来的5到10年将可能带来一场大变局：99%的开发、设计和文字工作将被AI接管。这不仅仅是一个想象，而是对未来可能趋势的深思熟虑。

在互联网时代，我们目睹了大量网站的崛起，成为互联网时代的原生应用的主要载体，这个时代有了 Web 相关的新技术，这些技术承载着 Google、Facebook、Twitter 等互联网明星企业的崛起。进入移动互联网时代，App 成为了主要载体，它们占据了整个移动互联网时代人们注意力的中心。然而，当我们进入智能时代，开始思考：什么将会成为这个时代的核心载体？我们预测可能不再是 App，也不再是网站，而是 Agent，也许几年后的现实才能给出答案，但历史告诉我们一个新鲜事物的演进总会找到一个稳定的术语来概括这个载体，而今天我们看到 Agent 最具有这个潜力。

对于这个猜想，随着我们后面讲的越来越深入，大家可能体会也会越来越深，因为它可能抓住的一些智能时代一个非常本质性的东西，基于大模型把 Agent 的能力推高到了一个全新的水平，这个在学术界研究了几十年的全新物种才开始走入人类舞台的中央。在范式上我们也在思考是什么样的底层技术和架构会驱动 Agent 技术的快速发展，从现在的趋势来看，我们觉得在人类的智能原理处于核心地位的面向目标架构很可能会成为驱动这个 Agent 技术发展的主要范式。

而且现在全球对Agent的关注也是非常狂热的，几个月前，OpenAI 在内部就开始高度关注智能体（Agent）领域，Deep Mind的联合创始人最近也提到下一代 AI 技术走向并非是生成性 AI，而应该是交互性 AI。这种交互性 AI 在很大程度上类似我们今天提到的智能体，用户要求完成各种任务，智能体则可以对软件进行操作或者与人进行协作，完成相关的工作。

希望这些想法可以帮助大家在战略层面或者是产品和技术层面得到一个很好的思考框架，能够在各自的领域去推演未来。

导读

走马观花、抛砖引玉

整个 PPT 一百多页，内容繁杂。我给大家做一个简单的导读，主要还是梳理脉络，提出思考的框架和基点，起到抛砖引玉的作用，其中涉及的很多细节部分我们并没有做得非常细致。期望大家在看完这个分享之后，对智能体技术有一个新的认知，并能应用在你们自己的研究方向或者职业规划上。

我们将整个内容分为四个部分：首先，会对从大模型到现在的智能体的技术发展做一个串讲；接着，介绍通用智能原理和面向目标架构这个两个根本性问题；最后，基于这两个原理，分析现在的智能体架构仍存在的缺陷，以及未来可能的发展方向。

1. LLM Agents综述

如果你一直关注 AI 领域，你应该能看到一个清晰的技术脉络，一开始大家玩 Prompt 工程，接着是Prompt Chain或Flow，再到Agent，多Agent，很清晰的一个脉络架构，我们也会沿着这个脉络给大家分享相关的经典工作。

我们回到 Agent 这个概念上，实际上，人类是这个星球上最强大的 Agent。Agent是一个能感知并自主地采取行动的实体，这里的自主性极其关键，Agent要能够实现设定的目标，其中包括具备学习和获取知识的能力以提高自身性能。

Agent 的复杂程度各不相同，一个简单的恒温器可以是一个 Agent，一个大型的国家或者一个生物群体也可能是个 Agent。感知环境、自主决策、具备行动能力，设定明确的目标和任务，适应环境及学习能力，都是 Agent 的关键特点。

Agent 这一概念的起源并不明确，可以是学术界逐渐发展沉淀而来，但是我们可以考虑马文·明斯基80年代《智能社会》这本书中在人工智能领域发扬光大了这个概念。Agent 理论在大模型时代之前已经被学术界研究了很多年，甚至是汗牛充栋，许多理论研究都试图创造出具有人类智能水平的 Agent。然而，在大模型出现之前，Agent 的技术始终面对天花板限制，无法取得实用的进步，它的本质问题还是AGI问题，反过来说，只有AGI的技术进步才能让 Agent 技术进步。

在学术领域，最经典的案例可能是与机器人相关的研究，都涉及到了Agent 技术。在大模型时代之前，比较知名的垂直领域 Agent 的例子比如 Alphago，它有感知环境、做决策、采取行动的闭环，当时的主要研究方向还有使用强化学习打游戏的DeepMind的Agent57，后来更加通用的Gato，还有OpenAI玩“躲猫猫”的多智能体。

我们认为Agent技术是未来实现社会全面自动化的关键技术。在大模型出现之前，自动化更多的是一些偏结构化固定模式环境中通过实现固定算法流程来完成自动化任务，而大模型智能体的通用性带来了灵活性，使其可能应对人类在脑力劳动中面临的各种复杂长尾任务，进一步实现体力和脑力任务的全面自动化。

大模型和Agent技术开启了全面自动化的新时代。大模型是第一个可以自主学习并拥有广泛知识的模型，所以在大模型时代，Agent技术开始迅速发展。今天，我们可能只是在起点，我们看到的Agent还偏向于玩具，但是预计在未来几年，这个领域将产生极大的改变，它的发展速度可能会超越我们的想象，因为我们现在看到改进每天都在发生，天花板远未来到，甚至天花板可能不会再来了。

1.1 Prompt工程

在大模型刚出来的时候，大家都喜欢做的事就是Prompt工程，把大模型当成一种编程语言来看待。人们通过描述角色技能、任务关键词、任务目标及任务背景，告知大模型需要输出的格式，并调用大模型进行输出。这种方法就是经典的把大模型当做工具来调用，我们可以称为工具模式。

为此，大家也发展了各种各样的Prompt工程的玩法，如角色扮演、零样本提示和少样本提示。比如一个澳大利亚少年编写了一个15000个字符的提示词，成功地让他变身为人类的导师，教授各种知识。这种方式就像能直接构建软件一样，是我们将Prompt工程发挥到极致的一个经典案例。

https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor

1.2 Prompt外挂

仅凭Prompt工程根本无法满足人们日益增长的大模型需要，鉴于大模型本身的诸多缺陷，如不能及时更新知识，上下文有限等等，人们开始给大模型加入插件，如引入向量数据库，把数据索引进向量数据库，再召回数据，再提交给大模型做Prompt工程，这样就可以使用最新的知识和比大模型里的知识更准确的知识。

这些还不够，人们又开启了外挂模式，尝试让 GPT 调用函数和使用工具，一系列关于工具使用的实践开始出现，ChatGPT也推出了插件体系。当人们发现大模型的推理能力很差时，开始试图让模型自身清楚地描述问题，把问题转化为 PDDL （Planning Domain Definition Language）格式的描述语言，通过调用通用规划器来解决规划问题，再把解决方案转化为可执行的动作，以更好地逻辑推理和规划等任务。

更加经典的外挂形式当然是让大模型调用外部工具了，OpenAI也搞出了ChatGPT Plugins的开放体系，这些今天回头看都是非常顺理成章的形式，ChatGPT的爆发激发了全世界大量的Idea，这些创新很快就被OpenAI吸纳进产品迭代中。

此外，大模型虽然具备一定的推理能力和思考能力，在很多推理任务上依然力不从心，能不能让模型自己不做规划推理，让他把问题描述清楚，转化成一个 PDDL 的一个关于规划描述的语言，然后使用通用的规划器去做规划，再转化成动作执行，这就把大模型作为一个中转器，把规划器当做了一个外挂。

我们可能会思考，大模型或许真的就是我们以前想象的那样，会达到人类智慧水平的普适性机器么？显然从各项评测来看还有很多任务做不到，更何况这些任务评测本身的覆盖度也不够完备。

有一个经典概念被誉为"通用任务解决器"，在达特茅斯会议之后得名“GPS”，即General Problem Solver。这是由赫伯特·西蒙（Herbert Simon）和艾伦·纽维尔（Allen Newell）在早期提出的概念，他们尝试寻找可用于解决数学问题的通用解决方案。这套理念其实很简洁，可以看作是早期的面向目标架构。它的主要内容是将目标状态列出，然后在解空间中搜索可以将初始状态转化为目标状态的操作组合，这样的组合便是问题的答案。