一、导读
大型语言模型(LLM)驱动的自主代理能在复杂环境中执行任务,但传统方法依赖人工构建任务数据和强化学习(Reinforcement Learning)的随机探索,导致数据成本高、探索效率低、样本利用率不足。
为解决这些问题,本文提出AgentEvolver,一个通过自我提问、自我导航和自我归因三大机制实现代理自主学习的框架。实验表明,该框架在任务完成率和样本效率上显著优于传统方法,**在多个基准测试中平均性能提升超过30%**。
原文、这里:LLM Agent训练新范式!阿里 AgentEvolver三协同机制,攻克任务稀缺与探索低效难题,性能碾压传统 RL 方法
二、论文基本信息

-
论文标题:AgentEvolver: Towards Efficient Self-Evolving Agent System
-
作者姓名与单位:Yunpeng Zhai 等,Tongyi Lab, Alibaba Group
-
论文链接:https://arxiv.org/html/2511.10395v1
-
代码链接:https://github.com/modelscope/AgentEvolver
三、主要贡献与创新
-
提出自我提问机制,利用LLM好奇心自主生成任务,减少对人工数据的依赖。
-
设计自我导航机制,通过经验重用和混合策略提升探索效率。
-
引入自我归因机制,基于步骤贡献分配细粒度奖励,提高样本利用率。
-
构建统一框架,将任务生成、轨迹探索和策略优化集成到自进化循环中。
-
提供模块化基础设施,支持多环境交互和可扩展的二次开发。
原文、这里
https://mp.weixin.qq.com/s/98X1p72PwWboquEaC_79OA
四、研究方法与原理
AgentEvolver的核心思路是让大语言模型(LLM)自主驱动代理的学习过程,通过环境交互实现持续进化。

-
自我提问(Self-Questioning):代理通过好奇心探索环境,生成多样化任务。环境沙盒定义为 ,其中为状态空间,为动作空间,为转移概率。任务生成函数将环境映射到任务分布,用户偏好指导任务合成。
-
自我导航(Self-Navigating):代理重用历史经验提升探索效率。经验池 通过轨迹处理流程 构建,检索时计算查询与经验的余弦相似度,返回Top- 相关经验。混合 rollout 生成轨迹集 ,优势值标准化为 。优化目标 结合经验剥离和选择性提升,避免过拟合。
-
自我归因(Self-Attributing):LLM 评估每一步动作的贡献,构建过程奖励 (6000 对应 +1,8A0 对应 -1)。标准化后与结果奖励 融合为复合奖励 。优势值 用于策略优化,超参数 平衡过程与结果权重。
五、实验设计与结果分析
实验设置:使用 AppWorld 和 BFCL-v3 基准,评估指标为任务目标完成率(TGC)的 avg@8 和 best@8,最大轨迹步数为30。基线为 Vanilla GRPO,骨干模型为 Qwen2.5-7B/14B。
对比实验(表1):

AgentEvolver 在 7B 模型上平均 TGC 提升 29.4%,14B 模型提升 27.8%。自我提问机制贡献最大,单独使用可将 7B 模型性能从 15.8% 提升至 36.1%。
消融实验:
-
自我提问(图12a):

数据量从100增至500,性能持续提升但增益递减。
-
自我导航(表4、图13):经验指导使推理性能提升 15.4%,隐式学习优于显式指导。


-
自我归因(表5、图15):双通道奖励(过程+结果)效果最佳,样本效率提高 55%-67%。


-
超参数分析(图16): 平衡收敛速度与长期性能。

上下文管理模板(表7):自管理模板(SCMT)在长视野任务中表现最优,TGC@8 达 0.720。

六、论文结论与评价
总结:AgentEvolver 通过三大机制系统解决了任务稀缺、探索低效和样本浪费问题,实验证明其在多个基准上实现显著性能提升,且具备跨领域泛化能力。
评价:该框架为构建自适应代理提供了可行路径,但依赖 LLM 判断可能引入偏差,未来需在复杂现实任务中验证。其模块化设计鼓励扩展,但计算成本较高,需进一步优化效率。
往期推荐
强烈推荐!多模态融合顶会新成果!CVPR/AAAI 高分成果,这波思路必须学!
OCR “去幻觉” 新纪元!通义点金 OCR-R1 搞定模糊盖章+跨页表格,攻克 OCR 三大痛点!
NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!
杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!
ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!
NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损
太牛了!北大:Unified-GRPO让理解生成正反馈,超 GPT-4o-Image

3218

被折叠的 条评论
为什么被折叠?



