Agent开发02-关键思想(ReAct、ReWOO、Reflexion、LLM Compiler等)

前言

前文概述了Agent开发定义和一些基本概念,本文目的是概述目前Agent开发的一些关键论文和思想。

年份 标题
2022 ReAct: Synergizing Reasoning and Acting in Language Models
2023 ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models
2023 Reflexion: Language Agents with Verbal Reinforcement Learning
2023 REST MEETS REACT: SELF-IMPROVEMENT FOR MULTI-STEP REASONING LLM AGENT
2024 Self-Reflection in LLM Agents: Effects on Problem-Solving Performance
2024 An LLM Compiler for Parallel Function Calling

研究进展

ReAct:推理 + 动作结合

论文标题ReAct: Synergizing Reasoning and Acting in Language Models
作者:Shinn et al., 2022

  • 核心贡献:将“Chain-of-Thought”推理与动作(工具调用)结合。
  • 场景:开放问答、Web搜索、Wikipedia浏览等。
  • 适用:知识密集型问答、需要多步交互和决策、工具链式依赖
  • 架构:Thought-Action-Observation 循环,支持工具使用。
    • Thought:LLM 在输出时“自言自语”,写下自己当前的推理过程。
    • Action: LLM 根据思考决定调用某个工具或执行动作。
    • Observation:工具执行后返回结果,作为下一步推理的输入。
  • 优点:
    • 支持多步推理与交互,动态适应性极强,能够根据实时的环境观察灵活调整其行动计划,有效应对不确定性和突发情况。
    • 其显式的推理轨迹使得整个决策过程高度可解释,这不仅便于开发者进行调试,也增强了用户对Agent的信任度。
  • 缺点:
    • 每次工具调用都需要进行一次LLM推理,导致执行速度相对较慢,并会产生高昂的Token消耗
    • 由于其每次只规划下一步,可能导致Agent陷入局部最优解,而无法找到全局最优的行动路径。
    • 长链调用中可能会陷入反复调用和幻觉中。

下图展示了两个领域(问答、游戏)的回复方式(直接回复、仅推理、仅调用工具、推理+调用工具)的对比

ReWOO:推理过程与工具调用解耦

论文标题ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models
作者:Xu B, Peng Z, Lei B, et al. 2023

  • 核心贡献: ReAct 每一步都需要 Observation 不同,ReWOO 先让 LLM 生成一个完整的推理/
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

学海一叶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值