ReAct存在的局限:
单一智能体决策随着任务变得愈加复杂和冗长,容易出现记忆和规划深度的限制。
CoAct :A Global-Local Hierarchy for Autonomous Agent Collaboration(全局-局部分层协作用于自主智能体协作)
框架包括两个智能体:
Global Planning Agent(全局规划代理):
- 制定全局计划(comprehensive plans): 一旦接收到任务,它会先制定一个宏观层面的总体方案。
- 任务分解(phased subtasks): 将整个任务分解为多个阶段子任务(如 Phase 1、Phase 2 等),并为每个阶段设定明确目标和预期结果。
- 计划管理(plan management): 在整个任务期间持续监督与更新这些子任务的执行状态,确保任务推进有序。
- 与执行代理交互(agent interaction): 当 Local Execution Agent(本地执行代理)提出执行反馈或请求时,Global Agent 会进行检查,并根据需要调整计划或维持当前策略。
Local Execution Agent(局部执行代理):
- 像一个“执行员工”;
- 解析每一个子任务 把上层代理分配的阶段性目标进行拆解,提炼出一连串的原子操作步骤;
- 按顺序执行这些操作 比如点击页面按钮、填写表单、提取信息等;
- 执行后对比检查 将操作结果与全局计划中的预期结果进行验证,判断是否达标;
- 评估进展与反馈调整 根据执行结果判断是否:
-
- 继续当前阶段;
- 修正自身计划;
- 或者向全局代理请求重新规划(re-plan)。
- 生成详尽的任务报告(execution summary) 把执行过的步骤和最终结果结构化地报告上去,确保任务结果与全局目标对齐。
总结:
- ReAct:使用单个智能体,既负责推理又负责行动。在每个循环中,智能体交替进行“思考”和“行动”。
- CoAct:引入团队协作,一个智能体(全局规划智能体)主要负责高层次规划,另一个智能体(本地执行智能体)负责具体执行和低层次推理。
但是这篇论文提到CoAct 引入了 force stop intervention时,性能会提升。说明CoAct同样会随着交互轮次的增加积累无用信息产生幻觉和循环错误。
这种思考+行动的交互迭代方法肯定会存在的问题:上下文爆炸,重复以前的行为,幻觉,历史信息太多决策迟钝。
参考:
https://zhuanlan.zhihu.com/p/29239667810