详解AI Agent系列｜（1）AI Agent到底是什么

最新推荐文章于 2025-04-27 11:09:23 发布

Sunny_AI_addict

最新推荐文章于 2025-04-27 11:09:23 发布

阅读量4.8k

点赞数 14

分类专栏： AI Agent 文章标签：人工智能 ai 深度学习 nlp

本文链接：https://blog.youkuaiyun.com/weixin_49659123/article/details/136024048

版权

一、引言

在大语言模型的能力日渐提升的过程中，一种衍生类型的应用AI Agent也借着这股春风开启了一波话题度，各种初创公司，包括Open AI 内部也都在密切关注着AI Agent领域的变化。

面对AI Agent，很多人并不理解它到底是什么，以及它相比于单独的大语言模型到底有什么优势。

正好，这篇文章就基于复旦NLP团队对于AI Agent的综述，从high-level来简明概括地介绍一下AI Agent。

（笔者note：后续也会出基于各种开源AI Agent项目的AI Agent架构、AI Agent技术细节、AI Agent评估的相关内容，感兴趣的小伙伴可以码一下这篇文章所在的专栏）

二、什么是AI Agent

2.1 Agent这个词代表着什么？

有很多人或许会疑惑，Agent这个东西看起来跟LLM也没差得那么远，那为啥最近突然Agent那么火，而不称之为LLM-Application或者其他的词呢？这就得从agent的来历上说起了。

从哲学意义上讲，“Agent”是指具有意图和行动能力的实体（包括物理世界和虚拟世界中的其他实体）；而“Agency”一词则表示这种能力的行使或体现。

在 20 世纪 80 年代中后期之后，当“Agent”这一概念被引入人工智能领域时，其含义发生了一些变化。在哲学领域，Agent可以是人、动物，甚至是具有自主性的概念或实；然而，在人工智能领域，Agent是一个计算实体（这种计算实体的表现形式有很多种，例如接入真实世界的机器人，对话接口，沙盒环境里的游戏NPC等），它们能够使用传感器感知周围环境，自主做出决策，然后使用执行器采取行动。

2.2 AI Agent的技术演变史

1、Symbolic Agents: 在人工智能研究的早期阶段，最主要的方法是符号人工智能，其特点是依赖符号逻辑。这种方法采用逻辑规则和符号表示来封装知识和促进推理过程。它们主要关注两个问题：转换问题和表示/推理问题。这些Agent旨在模拟人类的思维模式。它们拥有明确的、可解释的推理框架，而且由于其符号性质，它们表现出高度的表达能力（这种方法的一个典型例子是基于知识的专家系统）。然而，Symbolic Agent在处理不确定性和大规模现实世界问题时面临着局限性。此外，由于符号推理算法错综复杂，要找到一种能在有限时间内产生有意义结果的高效算法也很有挑战性。

2、Reactive Agents: 与Symbolic Agent不同，Reactive Agent不使用复杂的符号推理。相反，它们主要关注Agent与其Environment之间的交互，强调快速和实时响应。这类Agent的设计优先考虑直接将输入输出进行映射，而不是复杂的推理和符号操作。Reactive Agent通常需要较少的计算资源，从而能做出更快的反应，但可能缺乏复杂的高层决策和规划能力。

3、RL-based Agents: 该领域的主要关注点是如何让Agent通过与环境的交互进行学习，使其在特定任务中获得最大的累积奖励。最初，RL-based Agent主要基于强化学习算法，如策略搜索和价值函数优化，Q-learning和SARSA就是一个例子。随着深度学习的兴起，出现了深度神经网络与强化学习的整合，即深度强化学习。这使得Agent可以从高维输入中学习复杂的策略，从而取得了众多重大成就（如AlphaGo和DQN）。这种方法的优势在于它能让Agent在未知环境中自主学习，而在学习过程中无需明确的人工干预。这使得它能广泛应用于从游戏到机器人控制等一系列领域。然而，强化学习也面临着一些挑战，包括训练时间长、采样效率低以及稳定性问题，尤其是在复杂的真实世界环境中应用时。

4、Agent with transfer learning and meta learning: 传统上，训练强化学习Agent需要大量样本和较长的训练时间，而且缺乏泛化能力。因此，研究人员引入了迁移学习来加速Agent对新任务的学习。迁移学习减轻了新任务培训的负担，促进了知识在不同任务间的共享和迁移，从而提高了学习效率、绩效和泛化能力。此外，AI Agent也引入了元学习。元学习的重点是学习如何学习，使Agent能从少量样本中迅速推断出新任务的最优策略。这样的Agent在面对新任务时，可以利用已获得的一般知识和策略迅速调整其学习方法，从而减少对大量样本的依赖。然而，当源任务和目标任务之间存在显著差异时，迁移学习的效果可能达不到预期，并可能出现负迁移。此外，元学习需要大量的预训练和大量样本，因此很难建立通用的学习策略。

5、LLM-based Agent: 由于大型语言模型已经展示出令人印象深刻的新兴能力，并受到广泛欢迎，研究人员已经开始利用这些模型来构建AI Agent。具体来说，他们采用 LLM 作为这些Agent的大脑或控制器的主要组成部分，并通过多模态感知和工具利用等策略来扩展其感知和行动空间。通过思维链（CoT）和问题分解等技术，这些基于 LLM 的Agent可以表现出与Symbolic Agen相当的推理和规划能力。它们还可以通过从反馈中学习和执行新的行动，获得与环境互动的能力，类似于Reactive Agent。同样，大型语言模型在大规模语料库中进行预训练，并显示出少量泛化的能力，从而实现任务间的无缝转移，而无需更新参数。LLM-based Agent已被应用于各种现实世界场景、如软件开发和科学研究。由于具有自然语言理解和生成能力，它们可以无缝互动，从而促进多个Agent之间的协作和竞争。

目前热度高的AI Agent，都是基于大语言模型的AI Agent (LLM-based Agent，本文中提到的AI Agent，也都是指LLM-based Agent)，其实基本上都是 "LLM + 规划技能 + 记忆 + 工具使用"的组合，并以控制端 (Brain)、感知端 (Preception)、执行端 (Action) 的概念框架来构成。