论文阅读: Large Language Model Agent: A Survey on Methodology, Applications and Challenges

目录

一、整体说明

二、具体解读

1、作者

2、介绍

3、方法

(1)构建

(a)配置文件

(b)记忆

(c)规划

(d)行为

(2)协作

(a)集中控制

(b)去中心

(c)混合

(3)进化

​编辑

(a)自主优化和自学习

(b)多智能体协同进化

(c)通过外部资源进化

4、评估和工具

(1)评估基准和数据集

(a)一般评估框架

(b)特定领域评估系统

(c)复杂系统协作评估

(2)工具

(a)LLM使用的

(b)LLM创建的

(c)部署LLM

5、现实世界问题

(1)以Agent为中心的安全性

(2)以数据为中心的安全性

(3)隐私

(4)社会影响和道德

6、应用

(1)科学发现

(2)游戏

(3)社会科学

(4)生产力工具

7、挑战

(1)可扩展性和协调性

(2)记忆限制和长期适应

(3)可靠性和科学严谨性

(4)多轮次、多智能体动态评估

(5)安全部署的监管

(6)角色扮演场景

三、总结


一、整体说明

这篇论文在横向方面,主要是需求和工程角度,说明了最新的LLM-based Agent的前沿技术和研究讨论。

二、具体解读

1、作者

2、介绍

Agent的相关技术是伴随着LLM技术的进步而发展的。由LLM推动的技术进步改变了原有的技术范式,很大程度上是由于LLM可以作为通用任务的处理器。

3、方法

(1)构建

(a)配置文件

配置文件的作用有2点,1是定义agent的内在属性,2是规定agent的行为模式。

配置文件有2种:

- 静态文件。由人工设置,有明确指定。通常设置的是静态结构化角色,通过结构化对话,完成指定任务。

- 动态文件。这里指的是批量产生的文件。通过参数初始化设置,模拟多样化社会行为,以进行人类社会行为研究。

(b)记忆

Agent的短期记忆即Agent的部分状态,与LLM的技术很相关。Agent的外部记忆通常是外部数据,使用的是非当前Agent进行推理的LLM的技术。短期记忆相关的实现与具体LLM相关很大,而外部记忆是可以与LLM独立的另一套技术。

记忆有3种:

- 短期记忆。通常指context,直接与交互式交流相关,使用非常广泛。这与LLM相关性较大,LLM存在上下文限制,具体实现需要限制交互深度,以及可能需要实现额外的信息压缩机制。

- 长期记忆。Agent的推理轨迹。将短暂认知转换为长期记忆有3种方法:

        - 程序技能知识库。

        - 成功/失败模式体验库。

        - 工具合成框架。

- RAG。外部知识库。使用外部知识的方法有3种:

        - 文本语料库或结构化知识图谱。

        - 交互式检索。进行外部查询。

        - 推理集成检索。推理和动态知识获取交织在一起。

(c)规划

在面临复杂问题,LLM的规划能力就变得十分重要。LLM需要高精度浏览复杂任务,思考问题的场景。

- 任务分解策略。任务分解是规划能力的基本方法。任务分解的目的是,通过一种方法,一个复杂的任务可以变成一系列的易于管理的子问题。分解策略有2种:

        - 单路,链。基础版本,Plan and Solve范式,zero-shot CoT,子任务由预定的顺序执行。这种方法简单但缺乏灵活性,过程不能有偏差,否则会发生错误累计。改进方法,动态规划,只生成下一个子问题,步骤中接收反馈动态调整。或者另一种改进,集成方法,多条CoT,最后结合,提高稳健性,也能够做出更准确的决策。

        - 多路,树。允许LLM进行回溯,回到以前的状态,从而实现试错和纠错。实际中还可以进一步使用更好的算法做出更明智的决策,现实场景也可以结合RL进行调整。

- 反馈驱动迭代。Agent从执行的过程中收到反馈,进行调整。反馈的来源有:

        - 环境。

        - 人工。交互或提前准备的数据。

        - 自省。

        - 多智能体。

(d)行为

行为涉及2个方面:

- 工具使用。使用工具的能力涉及工具使用决策和工具选择。

- 物理交互。这是具身LLM相关的方面。

(2)协作

multi-agent是现在的主流。基本架构有3种,集中、分散、混合。这些影响在决策、通讯、任务分配方面。

(a)集中控制

分层协调机制。中央控制器分配任务、进行决策,其他agent只与中央控制器进行通信。集中式架构存在的问题是,控制节点处理所有的通信、任务调度、争用解决,该控制节点可能成为瓶颈。

具体的范式有:

- 显式控制器。标准流程。

- 差异化系统。将控制的Agent进行分解,例如划分为计划、工具、反思。

(b)去中心

解决集中式架构的中心控制节点成为瓶颈的问题。通过自组织协议,节点间直接交互。

具体的范式有:

- 基于修订。Agent观察其他节点的生成,迭代优化共享输出。这种架构中节点可以不是agent,支持混合优化策略。

- 基于通讯。更灵活的组织结构。允许直接参与对话和观察其他节点推理,适合动态场景建模。

(c)混合

组合集中和分散架构,平衡可控性和灵活性,用于异构任务需求。

具体设计范式有:

- 静态系统。预定义协调规则。预定义的固定模式用于组合不同的协作模式。具体实现大多是通过分层次实现的。

- 动态系统。自我优化拓扑。通过实时性能反馈,动态调整协作结构。

(3)进化

Agent发展的机制,支持自主改进、多智能体交互、外部资源集成,以实现在复杂环境的适应性、推理能力、性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值