实践中的代理:善加利用人工智能
基于LLM的智能体作为一个新兴的研究方向,越来越受到研究者的关注。许多特定领域和任务中的应用程序已经开发出来,展示了代理的强大和多功能。我们可以很有信心地说,拥有一个能够帮助用户完成典型日常任务的个人代理的可能性比以往任何时候都要大。作为一种基于LLM的药物,其设计目标应该始终是对人类有益的,即:人类就可以利用人工智能做好事。具体而言,我们期望代理实现以下目标:
- 帮助用户从日常工作和重复性劳动中解脱出来,从而减轻人的工作压力,提高任务解决效率。
- 不再需要用户提供明确的低级指令。相反,代理可以独立地分析、计划和解决问题。
- 在解放了用户的双手之后,代理人也解放了他们的思想,从事探索性和创新性的工作,在前沿科学领域实现了自己的全部潜能。
在本节中,我们将深入概述基于LLM的代理的当前应用,旨在为实际的部署场景提供一个广阔的视角。首先,阐述了单Agent的不同应用场景,包括面向任务的场景、面向创新的场景和面向生命周期的场景。)的范围内。然后,我们提出了多Aget的协调潜力。无论是通过互补性的合作互动,还是通过进步性的对抗互动,这两种方法都能提高任务效率和响应质量。最后,将人与Agent的交互协作分为两种模式,分别介绍了两种模式的主要形式和具体应用。基于LLM的代理应用程序的拓扑图如上图所示。
图7:基于LLM的代理应用程序的场景。本文主要介绍了三种应用场景:单Agent部署、多Agent交互和人-Aget交互。单个智能体具有多样的能力,能够在不同的应用方向上表现出出色的任务求解性能。当多个主体相互作用时,它们可以通过合作或对抗的相互作用来实现进步。此外,在人机交互中,人的反馈可以使Agent更有效、更安全地执行任务,同时Agent也可以为人提供更好的服务。
单智能体的一般能力
目前,基于LLM的代理的应用实例正在蓬勃发展。AutoGPT是一个正在进行的流行开源项目,旨在实现一个完全自治的系统。除了GPT4等大型语言模型的基本功能外,AutoGPT框架还集成了各种实用的外部工具和长/短期内存管理。在用户输入他们的自定义目标后,他们可以解放自己的双手,等待AutoGPT自动生成想法并执行特定任务,而所有这些都不需要额外的用户提示。如下图所示,我们介绍了代理在只有一个代理的场景中所表现出的惊人的多样性能力。
图8:单个基于LLM的代理在不同场景中的实际应用。在面向任务的部署中,代理帮助人类用户解决日常任务。他们需要具备基本的指令理解和任务分解能力。在面向创新的部署中,智能体展示了在科学领域进行自主探索的潜力。在面向生命周期的部署中,智能体有能力不断探索、学习和利用新技能,以确保在开放世界中的长期生存。
面向任务部署
基于LLM的代理能够理解人类自然语言命令并执行日常任务,是目前用户最喜欢和最有实用价值的代理之一。这是因为它们有可能提高任务效率、减轻用户工作量并促进更广泛用户群的访问。在面向任务的部署中,代理遵循来自用户的高级指令,承担诸如目标分解子目标的顺序规划、环境的交互式探索等任务,直到实现最终目标为了探究代理是否可以执行基本任务,首先将它们部署在基于文本的游戏场景中。在这种类型的游戏中,代理人纯粹使用自然语言通过阅读他们周围环境的文本描述他们,预测下一个行动。然而,由于基础语言模型的限制,智能体在实际执行过程中往往依赖于强化学习随着LLM的逐步发展,具有更强文本理解和生成能力的智能体已经表现出通过自然语言执行任务的巨大潜力。由于其过于简化的性质,基于文本的场景不足以作为基于LLM的代理的测试基础[391]。为了满足这一需求,构建了更加逼真、复杂的仿真测试环境。根据任务类型,我们将这些模拟环境分为Wb场景和生活场景,并介绍了代理在其中扮演的具体角色。
在Web场景中。在Web场景中代表用户执行特定任务被称为Web导航问题。代理解释用户指令,将其分解为多个基本操作,并与计算机交互。这通常包括Wb任务,例如填写表单,在线购物和发送电子邮件。代理需要具备理解复杂网络场景中的指令的能力,适应变化(如嘈杂的文本和动态HTML网页),并概括成功的操作。通过这种方式,代理可以在未来处理看不见的任务时实现可访问性和自动化,最终将人类从与计算机的重复交互中解放出来。
通过强化学习训练的智能体可以使用预定义的动作(如打字,搜索,导航到下一页等)有效地模仿人类行为,它们在基本任务中表现良好,如在线购物和搜索引擎检索,这些任务已被广泛探索。然而,没有L