什么是AI Agent?
目前与AI的交互形式基本上都是你输入指令,AI模型会根据你的指令内容做出响应,这样就是导致你每次在进行提供有效的提示词才能达到你想要的效果。
而AI Agent则不同,它被设计为具有独立思考和行动能力的AI程序。你只需要提供一个目标,比如写一个游戏、开发一个网页,他就会根据环境的反应和独白的形式生成一个任务序列开始工作。就好像是人工智能可以自我提示反馈,不断发展和适应,以尽可能最好的方式来实现你给出的目标。
那么为什么大语言模型(LLM)刚流行不久,就需要AI Agent呢?
语言模型 (LLM) 仅限于它们所训练的知识,并且这些知识很快就会过时。
以下是LLM的一些缺点:
1)会产生幻觉。
2)结果并不总是真实的。
3)对时事的了解有限或一无所知。
4)很难应对复杂的计算。
AI Agent可以利用外部工具来克服这些限制。
1)Google搜索:获取最新信息
2)Python REPL:执行代码
3)Wolfram:进行复杂的计算
4)外部API:获取特定信息
而LangChain则是提供一种通用的框架通过大语言模型的指令来轻松地实现这些工具的调用。
我们都知道在执行一个复杂的任务时,我们需要考虑多方面的影响因素,将复杂任务拆分为细小的子任务去执行。AI Agent的诞生就是为了处理各种复杂任务的,就复杂任务的处理流程而言AI Agent主要分为两大类:行动类、规划执行类。
LLM和Al Agent有什么区别
AI Agent 和大模型的区别在于,大模型与人类之间的交互是基于 prompt 实现的,用户 prompt 是否清晰明确会影响大模型回答的效果。而 AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。
为什么LLM能够作为Agent的全新大脑?
自主性
自主性是指一个Agent在没有人类或其他人直接干预的情况下运行,并对其行动和内部状态拥有一定程度的控制。这意味着,AI Agent不仅应具备按照人类的明确指令完成任务的能力,还应表现出独立发起和执行行动的能力。这意味着一定程度的自主探索和决策。
Auto-GPT等应用体现了 LLM 在构建Autonomious Agent方面的巨大潜力——只需向它们提供一项任务和一套可用工具,它们就能自主制定计划并执行计划,以实现最终目标。本文认为LLMs在自主性方面的表现主要体现在以下几点:
- LLMs可以通过生成类似人类的文本参与对话,并在没有详细步骤指示的情况下执行各种任务的能力来展示一种自主性。
- LLMs能根据环境输入动态调整输出,体现出一定程度的自适应能力。
- LLMs能通过展示创造力来体现自主性,比如提出新颖的想法、故事或解决方案,而这些并没有明确编入它们的程序。
反应性
Agent的反应能力是指它对环境中的即时变化和刺激做出快速反应的能力。这意味着Agent可以感知周围环境的变化,并迅速采取适当的行动。传统上,语言模型的感知空间局限于文本输入,而行动空间则局限于文本输出。
不过,研究人员已经证明,利用多模态融合技术可以扩展语言模型的感知空间,使其能够快速处理来自环境的视觉和听觉信息。这些进步使 LLMs 能够有效地与真实世界的物理环境互动,并在其中执行任务。一个主要挑战是:LLM-based Agent在执行非文本操作时,需要一个中间步骤,即以文本形式产生想法或制定工具使用方法,然后最终将其转化为具体操作。这一中间过程会消耗时间,降低响应速度。
主动性
积极主动指的是,Agent不仅仅会对环境做出反应,它们还能积极主动地采取以目标为导向的行动。这一特性强调,Agent可以在行动中进行推理、制定计划和采取主动措施,以实现特定目标或适应环境变化。
虽然直观上,LLMs 中的下一个标记预测范式可能不具备意图或愿望,但研究表明,它们可以隐式地生成这些状态的表征,并指导模型的推理过程。LLMs 具有很强的概括推理和规划能力。通过向大型语言模型发出类似 "让我们一步一步地思考 "的指令,我们可以激发它们的推理能力,如逻辑推理和数学推理。同样,大型语言模型也以目标重拟、任务分解和根据环境变化调整计划等形式显示了规划的新兴能力。
社会能力
社交能力指的是一个Agent通过某种Agent交流语言与其他Agent(包括人类)进行交互的能力。大型语言模型具有很强的自然语言交互能力,如理解和生成能力。与结构化语言或其他通信原语相比,这种能力使它们能够以可解释的方式与其他模型或人类进行交互,这构成了LLM-based Agent的社会能力的基石。许多研究人员已经证明,LLM-based Agent可以通过协作和竞争等社会行为提高任务绩效(Meta GPT)。通过输入特定的提示,LLM 也可以扮演不同的角色,从而模拟现实世界中的社会分工(Overcooked)。此外,当我们将多个具有不同身份的Agent放入一个社会中时,可以观察到新出现的社会现象(Generative Agent)。
LLM研究对Agent研究的贡献
AI Agent需要感知环境、做出决策并执行适当的行动。在这些关键步骤中,最重要的是理解输入给Agent的内容、推理、规划、做出准确决策,并将其转化为可执行的原子动作序列,以实现最终目标。目前,许多研究利用LLM作为AI Agent的认知核心,这些模型的发展为完成这一步骤提供了质量保证。
- LLM的优势:大型语言模型在语言和意图理解、推理、记忆甚至移情等方面具有强大的能力,可以在决策和规划方面发挥卓越的作用。再加上预先训练的知识,它们可以创建连贯的行动序列,并有效地执行。此外,通过反思机制,这些基于语言的模型可以根据当前环境提供的反馈不断调整决策和优化执行序列。
- LLM的应用:LLM为Agent研究提供了一个非常强大的基础模型,在与Agent相关的研究中,LLM开辟了许多新的机会。例如,我们可以探索如何将LLM的高效决策能力整合到传统的Agent决策框架中,使Agent更容易应用于对专业知识要求较高且以前由人类专家主导的领域。此外,Agent研究不再局限于简单的模拟环境,现在可以扩展到更复杂的真实世界环境中。
Agent研究对LLM研究的贡献
将LLM提升为Agent标志着向人工通用智能(AGI)迈出了更坚实的一步。从Agent的角度来看待LLM,对LLM研究提出了更高的要求,同时也扩大了LLM的应用范围,为实际应用提供了大量机会。
- LLM的研究方向:对LLM的研究不再局限于涉及文本输入和文本输出的传统任务,如文本分类、问题解答和文本摘要。取而代之的是,研究重点已转向处理复杂任务,这些任务包含更丰富的输入模式和更广阔的行动空间。
- LLM的挑战:挑战在于如何让大型语言模型高效地处理输入、从环境中收集信息并解释由其行动产生的反馈,同时保持其核心能力。此外,更大的挑战在于如何让LLMs理解环境中不同元素之间的隐含关系,并获取世界知识。
- LLM的行动能力:大量研究旨在扩展LLM的行动能力,让它们掌握更多影响世界的技能,例如在模拟或物理环境中使用工具或与机器人API接口。
- Multi-Agent系统领域:我们希望LLM-based Agent能在社会合作中扮演不同的角色,参与涉及协作、竞争和协调的社会互动。
AI Agent的分类
行动类
行动类Agent负责执行简单直接的任务,例如他们可以通过调用API来检索最新的天气信息。
规划执行类
Agent首先会制定一个包含多个操作的计划任务,然后按照顺序去执行这些操作。
这种方案对于复杂任务的执行而言是非常有用的,AutoGPT、BabyAGI、GPTEngineer等都是这样的例子。
同时Agent在执行计划时会有以下特别重要的两点:
1)反思与完善:
Agent中设置了一些反思完善的Agent机制,可以让其进行自我批评和反思,与其它一些信息源形成对比,从错误中不断地去吸取教训,同时针对未来的步骤进行完善,提供最终的效果和质量!
2)长期记忆:
我们常见的上下文学习的提升工程项目都是利用模型的短期记忆来学习的,但是AI Agent则提供了长期保留和调用无限信息的能力,通常是利用外部的向量储存和快速检索来实现.
3)规划组件(Planning)
- 子目标和分解:代理将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。
- 反思和完善:智能体可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。
4)记忆组件(Memory)
- 短期记忆:我认为所有的上下文学习(参见提示工程)都是利用模型的短期记忆来学习。
- 长期记忆:这为代理提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量存储和快速检索。
参考文章
读懂AI Agent:基于大模型的人工智能代理 - 知乎 (zhihu.com)
「Agent」通俗易懂地聊聊AI Agent(附66个开源+44个闭源Agent项目) - 知乎 (zhihu.com)