目录
一、整体说明
这篇论文在横向方面,主要是需求和工程角度,说明了最新的LLM-based Agent的前沿技术和研究讨论。
二、具体解读
1、作者

2、介绍

Agent的相关技术是伴随着LLM技术的进步而发展的。由LLM推动的技术进步改变了原有的技术范式,很大程度上是由于LLM可以作为通用任务的处理器。
3、方法
(1)构建

(a)配置文件
配置文件的作用有2点,1是定义agent的内在属性,2是规定agent的行为模式。
配置文件有2种:
- 静态文件。由人工设置,有明确指定。通常设置的是静态结构化角色,通过结构化对话,完成指定任务。
- 动态文件。这里指的是批量产生的文件。通过参数初始化设置,模拟多样化社会行为,以进行人类社会行为研究。
(b)记忆
Agent的短期记忆即Agent的部分状态,与LLM的技术很相关。Agent的外部记忆通常是外部数据,使用的是非当前Agent进行推理的LLM的技术。短期记忆相关的实现与具体LLM相关很大,而外部记忆是可以与LLM独立的另一套技术。
记忆有3种:
- 短期记忆。通常指context,直接与交互式交流相关,使用非常广泛。这与LLM相关性较大,LLM存在上下文限制,具体实现需要限制交互深度,以及可能需要实现额外的信息压缩机制。
- 长期记忆。Agent的推理轨迹。将短暂认知转换为长期记忆有3种方法:
- 程序技能知识库。
- 成功/失败模式体验库。
- 工具合成框架。
- RAG。外部知识库。使用外部知识的方法有3种:
- 文本语料库或结构化知识图谱。
- 交互式检索。进行外部查询。
- 推理集成检索。推理和动态知识获取交织在一起。
(c)规划
在面临复杂问题,LLM的规划能力就变得十分重要。LLM需要高精度浏览复杂任务,思考问题的场景。
- 任务分解策略。任务分解是规划能力的基本方法。任务分解的目的是,通过一种方法,一个复杂的任务可以变成一系列的易于管理的子问题。分解策略有2种:
- 单路,链。基础版本,Plan and Solve范式,zero-shot CoT,子任务由预定的顺序执行。这种方法简单但缺乏灵活性,过程不能有偏差,否则会发生错误累计。改进方法,动态规划,只生成下一个子问题,步骤中接收反馈动态调整。或者另一种改进,集成方法,多条CoT,最后结合,提高稳健性,也能够做出更准确的决策。
- 多路,树。允许LLM进行回溯,回到以前的状态,从而实现试错和纠错。实际中还可以进一步使用更好的算法做出更明智的决策,现实场景也可以结合RL进行调整。
- 反馈驱动迭代。Agent从执行的过程中收到反馈,进行调整。反馈的来源有:
- 环境。
- 人工。交互或提前准备的数据。
- 自省。
- 多智能体。
(d)行为
行为涉及2个方面:
- 工具使用。使用工具的能力涉及工具使用决策和工具选择。
- 物理交互。这是具身LLM相关的方面。
(2)协作

multi-agent是现在的主流。基本架构有3种,集中、分散、混合。这些影响在决策、通讯、任务分配方面。
(a)集中控制
分层协调机制。中央控制器分配任务、进行决策,其他agent只与中央控制器进行通信。集中式架构存在的问题是,控制节点处理所有的通信、任务调度、争用解决,该控制节点可能成为瓶颈。
具体的范式有:
- 显式控制器。标准流程。
- 差异化系统。将控制的Agent进行分解,例如划分为计划、工具、反思。
(b)去中心
解决集中式架构的中心控制节点成为瓶颈的问题。通过自组织协议,节点间直接交互。
具体的范式有:
- 基于修订。Agent观察其他节点的生成,迭代优化共享输出。这种架构中节点可以不是agent,支持混合优化策略。
- 基于通讯。更灵活的组织结构。允许直接参与对话和观察其他节点推理,适合动态场景建模。
(c)混合
组合集中和分散架构,平衡可控性和灵活性,用于异构任务需求。
具体设计范式有:
- 静态系统。预定义协调规则。预定义的固定模式用于组合不同的协作模式。具体实现大多是通过分层次实现的。
- 动态系统。自我优化拓扑。通过实时性能反馈,动态调整协作结构。
(3)进化
Agent发展的机制,支持自主改进、多智能体交互、外部资源集成,以实现在复杂环境的适应性、推理能力、性能。


最低0.47元/天 解锁文章
1097

被折叠的 条评论
为什么被折叠?



