《扣子开发AI Agent智能体应用(人工智能技术丛书)》(宋立桓,王东健,陈铭毅,程东升)【摘要 书评 试读】- 京东图书
大模型时代,Agent将基于大模型构建,此时的Agent是一种能够感知环境、进行决策和执行动作的智能体。是否具备通过独立思考、调用工具逐步完成给定目标的能力,成为基于大模型的Agent与基于传统AI技术的Agent之间最大的不同。这个区别也是很多人在给当代Agent下定义时一直强调的要点。例如,告诉Agent帮忙下单一份外卖,它就可以直接调用App选择外卖,再调用支付程序下单支付,而无须人类指定每一步的操作。
1. Agent的组成
OpenAI研发出ChatGPT并持续引领大模型发展,它定义AI Agent就是由大模型驱动,由规划决策(Planning)组件、记忆(Memory)组件、工具(Tools)组件、行动(Action)组件等组件组成的可以自主执行任务的程序,如图1-1所示,它就像一个代替人类完成工作的代理人。Agent各个组件的作用概括如下:
- 规划决策组件:依赖于大模型自身的能力和提示词的指引,让模型反思和自我批评,并把任务分解成多个步骤,然后逐个完成。
- 记忆组件:分为短期记忆和长期记忆两种类型,用于记住沟通上下文。
- 工具组件:调用各种API,包括日历、代码解释器、计算器、搜索API等。
- 行动组件:说白了就是它动手干活的部分。它能根据任务选择不同的方法—要查资料就翻记忆库,要分析问题就分步推理,甚至还能自己写代码。
可以看到,Agent类似人的大脑的思考能力和四肢的执行能力。有了这些能力,Agent可以被认为是一种类人智能体。

图1-1 Agent的组成部分
可以用一个不太恰当的比喻来说明:大模型(LLM)就像是人的大脑,而Agent则是人本身。大模型只有输入输出功能,而Agent则包括大模型、规划、记忆和工具。以前,智能机器人无法“理解”人类语言,但随着AI大模型的发展,它们开始“理解”人类语言,这使得Agent的能力得到了显著提升。未来,Agent将在各个领域发挥重要作用,日益改变我们的生活和工作。
2. Agent每个模块的作用
我们用一个管理花园的园丁的例子来说明组成Agent的每个模块的详细作用。
(1)LLM(大模型):就像园丁的智慧和知识库,他阅读了海量的园艺书籍和资料,不仅知道各种植物的名字,还懂得如何照顾它们。在AI Agent中,LLM提供了庞大的信息存储和处理能力,以理解和响应我们提出的各种问题。以GPT为代表的大模型的出现,将Agent的理解处理能力提高到了前所未有的高度。
(2)Planning(规划决策):Agent将大型任务分解为更小、可管理的子目标,从而能够有效处理复杂的任务,正如园丁需要规划整个花园的布局。AI Agent的规划功能就像园丁制定种植计划,决定先种哪些花草,后种哪些蔬菜,或者如何分步骤修剪树冠。Agent可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。Agent像人类一样一步一步思考,一步一步推理,以保证最后结果的正确性。
(3)Memory(记忆):在与朋友沟通的过程中,我们需要记住沟通的上下文,但对于时间久远的对话,我们可能会记不住对话过程。短期记忆就类似于对话现场记下来的内容,而长期记忆则类似于把久远的聊天过程整理成一个记忆点,随时让大脑能够回忆当时说了什么重要的事。这类似于园丁的笔记本,记录了每个植物的种植时间、生长情况和前一次施肥的时间。记忆模块让AI Agent能记住以往的经验和已经完成的任务,确保不会重复错误。
(4)Tools(工具):就像园丁的工具,比如铲子、水壶和剪刀。AI Agent的工具模块,指的是它可以运用的各种软件和程序,帮助它执行复杂的任务。这些外部工具包括上网查询信息、代码执行、调用外部App等能力,就像园丁用工具进行园艺活动一样。
(5)Action(行动):Agent基于规划和记忆来执行具体的行动。这可能包括与外部世界互动,或者通过调用工具来完成一个动作(任务)。
3.Copilot(智能助手)和Agent(智能体)的区别
业界对Copilot(智能助手)和Agent(智能体)是否有区别有一定的争论。Copilot这个术语源自飞行术语,意思是副驾驶员(Co-pilot)。在飞机上,副驾驶员是协助主驾驶员操作飞机的人。Copilot在帮助用户解决问题时起辅助作用,例如GitHub Copilot是帮助程序员编程的助手,它更多地依赖于人类的指导和提示来完成任务。Copilot在处理任务时,通常是在人为设定的范围内操作,比如基于特定的提示生成答案。它的功能很大程度上局限于在给定框架内工作。
Agent更像一个主驾驶,可以根据任务目标进行自主思考和行动,具有更强的独立性和执行复杂任务的能力。Copilot主要用于处理一些简单、特定的任务,更多是作为一个工具或助手存在,需要人类的引导和监督。Agent能够处理复杂、大型的任务,并在LLM薄弱的阶段使用工具或API等进行增强。

3319

被折叠的 条评论
为什么被折叠?



