理解大语言模型智能体的规划能力:综述

前言

随着大模型的发展,如今智能体(Agent)的应用也变得越来越广泛。这篇文章对常见大语言模型的智能体应用的规划能力进行了综述性的概括。
论文链接:Understanding the planning of LLM agents: A survey

摘要

随着大语言模型(LLM)显示出显著的智能性,利用LLM作为自主代理的规划模块的进展引起了更多的关注。这篇论文系统性的介绍了基于LLM的代理规划,涵盖了近期提高规划能力的工作。对每个方向进行了全面分析,并讨论了该研究领域面临的进一步挑战。

引言

自主代理被认为是能够通过感知环境、规划和执行行动来完成特定任务的智能实体。规划作为代理最关键的能力之一,需要复杂的理解、推理和决策过程。

传统工作主要依赖于符号方法和基于强化学习(RL)的方法,如规划域定义语言或策略学习。而这些传统方法有一些局限性,符号方法需要将灵活的自然语言描述问题转换为符号建模,这可能需要人类专家的努力。通常这种方法缺乏容错性,即使只有少量错误也会导致失败。RL算法通常与作为策略网络或奖励模型的深度模型相结合。虽然RL算法通常需要大量的样本(与环境的交互)来学习有效的策略,但在手机数据耗时或成本高昂的情况下,这可能是不切实际或者是昂贵的。

近年来,大模型的出现标志着范式的转变。LLM在各个领域内如今都取得了令人瞩目的成就,在推理、工具使用、规划和指令遵循方面也展现出了显著的智能。LLM强悍的智能性解释了使用LLM作为代理的认知核心,从而提高规划能力的可能性。为了利用LLM的潜力进行代理规划,现如今已经开发出了许多方法。虽然现有的研究已经尝试总结了LLM相关的技术、推理、工具使用、自主代理技术,但往往缺乏对文献中规划能力的详细分析。这篇论文分析了最新的研究成果,并讨论了其优点和局限性,旨在为基于LLM的代理规划能力提供一个系统的视角。将现有方法进一步分为了五个具有代表性的方向,并对每个方向进行了综合分析。此外还在四个基准上测试了几种具有代表性的方法。这是第一个从规划能力中全面分析基于LLM代理的工作。

分类

随着对基于LLM的代理规划能力的研究呈现出蓬勃发展的局面,人们提出了各种方法来挖掘规划能力的上限。论文提出了一种新颖而系统的基于现有LLM的代理规划分类法,将现有工作分为了五个重要类别,包括任务分解、多方案选择、外部模块辅助规划、反思与优化以及记忆增强规划,具体内容可参照下图。
在这里插入图片描述

任务分解

在现实世界中,环境往往具有复杂性和多变性的特点,因此想要通过一步规划来处理复杂的任务是一项艰巨的挑战。将复杂问题进行简化是一种非常杰出的能力,可以将一个复杂的任务分解为若干个简单的任务,这类似于著名的“分而治之”的算法策略。任务分解一般包括两个关键步骤:首先是分解复杂任务,称为“分解”步骤‘其次是规划子任务,称为“子计划步骤”。目前这个领域的任务分解方法一般分为两类:边分解后规划和边分解边规划,具体内容可参照下图。
在这里插入图片描述

先分解后规划

先分解后规划首先将任务分解为子目标,然后依次对每个子目标进行规划,具有代表性的方法有:HuggingGPT、Plan-and-Solve和ProgPrompt等。

  • HuggingGPT利用Huggingface Hub的各种多模态模型构建了一个用于多模态任务的智能代理。为了促进不同模型之间的协作,LLM充当了控制器的作用,负责分解人类输入的任务、选择模型并生成最终响应。最关键的阶段是初始任务分解,HuggingGPT会明确指示LLM将给定任务分解为子任务,并提供任务之间的依赖关系。
  • Plan-and-Solve改进了零样本的思维链方法,将最初的“让我们一步步地思考”转变为两步提示指令:“首先制定计划”和“执行计划”,这种零样本方法提高了数学推理、常识推理和符号推理的能力。
  • ProgPrompt将任务的自然语言描述转化为编码问题。通过代码定义代理的动作空间和环境中的变量,每个动作都明确为一个函数,每个对象都表示一个变量。因此,任务规划很自然地转化为函数生成。在执行代码时,代理首先以函数调用的方式生成计划,然后逐步执行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nlp_xiaogui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值