- 博客(3)
- 收藏
- 关注
原创 读NeurIPS论文 OWL:面向现实世界任务自动化的通用多智能体辅助优化学习
基于大型语言模型(LLM)的多智能体系统在自动化现实世界任务方面显示出巨大潜力,但。当前的方法存在两个关键缺陷:在应用于新领域时,需要完全重新设计架构并对所有组件进行全面重新训练。我们推出了,这是一个分层的多智能体框架,通过模块化架构将战略规划与专业执行解耦。该架构包括:(i)一个用于的领域无关(ii)一个用于的(iii)具备领域特定工具调用能力的专业。这种解耦在推理和训练阶段都:在推理过程中,WORKFORCE 通过添加或修改工作器智能体来无缝适应新领域;
2025-11-29 20:04:44
926
原创 小红书团队X人大最新论文精读-DeepAgent:一个具备可扩展工具集的通用推理智能体
图 3:DeepAgent 框架概览。主推理模型能够自主地发现工具、执行动作,并折叠先前记忆,以结构化记忆重新开始——这一切都在统一的思维过程中完成。DeepAgent 通过 ToolPO 进行端到端训练,这是一种强化学习方法,利用工具模拟器来模拟大规模真实世界的工具 API,并通过精细化的优势归因,对最终任务成功以及中间工具调用的正确性进行奖励。如图 3 所示,DeepAgent 框架的整体架构围绕一个主要的推理过程构建,并由若干辅助机制支撑,以确保系统的鲁棒性与高效性。
2025-11-22 11:52:33
581
原创 Agent论文阅读笔记——分层工作记忆管理框架
HIAGENT的核心思想是利用子目标对工作记忆进行分层管理。更具体地说,如图2所示,HIAGENT的流程可描述如下:(1)在生成特定的落地动作(grounded actions)之前,我们先引导大型语言模型(LLM)构建一个子目标gᵢ。每个子目标都是整个任务中的一个里程碑。(2)随后,LLM生成实现该子目标所需的精准动作。(3)当LLM判定某个子目标已完成时,我们会将该子目标对应的“动作-观测”对合成为一个总结后的观测结果sᵢ(详见3.3节)。
2025-11-16 20:55:01
856
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅