LLM Agent训练新范式!阿里 AgentEvolver三协同机制,攻克任务稀缺与探索低效难题,性能碾压传统 RL 方法

关键词:自进化代理(Self-Evolving Agent)、自我提问(Self-Questioning)、自我导航(Self-Navigating)、自我归因(Self-Attributing)、强化学习(Reinforcement Learning)、任务生成(Task Generation)

一、导读

大型语言模型(LLM)驱动的自主代理能在复杂环境中执行任务,但传统方法依赖人工构建任务数据和强化学习(Reinforcement Learning)的随机探索,导致数据成本高、探索效率低、样本利用率不足。

为解决这些问题,本文提出AgentEvolver,一个通过自我提问、自我导航和自我归因三大机制实现代理自主学习的框架。实验表明,该框架在任务完成率和样本效率上显著优于传统方法,**在多个基准测试中平均性能提升超过30%**。

原文、这里:LLM Agent训练新范式!阿里 AgentEvolver三协同机制,攻克任务稀缺与探索低效难题,性能碾压传统 RL 方法

二、论文基本信息

  • 论文标题:AgentEvolver: Towards Efficient Self-Evolving Agent System

  • 作者姓名与单位:Yunpeng Zhai 等,Tongyi Lab, Alibaba Group

  • 论文链接:https://arxiv.org/html/2511.10395v1

  • 代码链接:https://github.com/modelscope/AgentEvolver

三、主要贡献与创新

  1. 提出自我提问机制,利用LLM好奇心自主生成任务,减少对人工数据的依赖。

  2. 设计自我导航机制,通过经验重用和混合策略提升探索效率。

  3. 引入自我归因机制,基于步骤贡献分配细粒度奖励,提高样本利用率。

  4. 构建统一框架,将任务生成、轨迹探索和策略优化集成到自进化循环中。

  5. 提供模块化基础设施,支持多环境交互和可扩展的二次开发。

原文、这里https://mp.weixin.qq.com/s/98X1p72PwWboquEaC_79OA

四、研究方法与原理

AgentEvolver的核心思路是让大语言模型(LLM)自主驱动代理的学习过程,通过环境交互实现持续进化。

  • 自我提问(Self-Questioning):代理通过好奇心探索环境,生成多样化任务。环境沙盒定义为 ,其中为状态空间,为动作空间,为转移概率。任务生成函数将环境映射到任务分布,用户偏好指导任务合成。

  • 自我导航(Self-Navigating):代理重用历史经验提升探索效率。经验池  通过轨迹处理流程  构建,检索时计算查询与经验的余弦相似度,返回Top- 相关经验。混合 rollout 生成轨迹集 ,优势值标准化为 。优化目标  结合经验剥离和选择性提升,避免过拟合。

  • 自我归因(Self-Attributing):LLM 评估每一步动作的贡献,构建过程奖励 (6000 对应 +1,8A0 对应 -1)。标准化后与结果奖励  融合为复合奖励 。优势值  用于策略优化,超参数  平衡过程与结果权重。

五、实验设计与结果分析

实验设置:使用 AppWorld 和 BFCL-v3 基准,评估指标为任务目标完成率(TGC)的 avg@8 和 best@8,最大轨迹步数为30。基线为 Vanilla GRPO,骨干模型为 Qwen2.5-7B/14B。

对比实验(表1):

AgentEvolver 在 7B 模型上平均 TGC 提升 29.4%,14B 模型提升 27.8%。自我提问机制贡献最大,单独使用可将 7B 模型性能从 15.8% 提升至 36.1%。

消融实验

  • 自我提问(图12a):

数据量从100增至500,性能持续提升但增益递减。

  • 自我导航(表4、图13):经验指导使推理性能提升 15.4%,隐式学习优于显式指导。

  • 自我归因(表5、图15):双通道奖励(过程+结果)效果最佳,样本效率提高 55%-67%。

  • 超参数分析(图16): 平衡收敛速度与长期性能。

上下文管理模板(表7):自管理模板(SCMT)在长视野任务中表现最优,TGC@8 达 0.720。

六、论文结论与评价

总结:AgentEvolver 通过三大机制系统解决了任务稀缺、探索低效和样本浪费问题,实验证明其在多个基准上实现显著性能提升,且具备跨领域泛化能力。

评价:该框架为构建自适应代理提供了可行路径,但依赖 LLM 判断可能引入偏差,未来需在复杂现实任务中验证。其模块化设计鼓励扩展,但计算成本较高,需进一步优化效率。

原文、这里:LLM Agent训练新范式!阿里 AgentEvolver三协同机制,攻克任务稀缺与探索低效难题,性能碾压传统 RL 方法https://mp.weixin.qq.com/s/98X1p72PwWboquEaC_79OA

往期推荐 

强烈推荐!多模态融合顶会新成果!CVPR/AAAI 高分成果,这波思路必须学!

OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!

NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!

杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!

ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!

NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损

太牛了!北大:Unified-GRPO让理解生成正反馈,超 GPT-4o-Image

越来越感觉「大模型+强化学习」是未来! ICLR/ICML/AAAI 最新论文整理,这波组合太能打了!

推荐系统 “效率革命”!字节OneTrans:统一 Transformer 融序列建模 + 特征交互,训练推理双提速

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值