LLM Agent训练新范式！阿里 AgentEvolver三协同机制，攻克任务稀缺与探索低效难题，性能碾压传统 RL 方法

原创已于 2025-11-17 10:15:56 修改 · 1.2k 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #agent #大模型 #自主学习 #任务稀缺 #样本浪费 #效率优化

于 2025-11-17 10:07:40 首次发布

前沿论文同时被 2 个专栏收录

19 篇文章

订阅专栏

18 篇文章

订阅专栏

关键词：自进化代理（Self-Evolving Agent）、自我提问（Self-Questioning）、自我导航（Self-Navigating）、自我归因（Self-Attributing）、强化学习（Reinforcement Learning）、任务生成（Task Generation）

一、导读

大型语言模型（LLM）驱动的自主代理能在复杂环境中执行任务，但传统方法依赖人工构建任务数据和强化学习（Reinforcement Learning）的随机探索，导致数据成本高、探索效率低、样本利用率不足。

为解决这些问题，本文提出AgentEvolver，一个通过自我提问、自我导航和自我归因三大机制实现代理自主学习的框架。实验表明，该框架在任务完成率和样本效率上显著优于传统方法，**在多个基准测试中平均性能提升超过30%**。

原文、这里：LLM Agent训练新范式！阿里 AgentEvolver三协同机制，攻克任务稀缺与探索低效难题，性能碾压传统 RL 方法

二、论文基本信息

论文标题：AgentEvolver: Towards Efficient Self-Evolving Agent System
作者姓名与单位：Yunpeng Zhai 等，Tongyi Lab, Alibaba Group
论文链接：https://arxiv.org/html/2511.10395v1
代码链接：https://github.com/modelscope/AgentEvolver

三、主要贡献与创新

提出自我提问机制，利用LLM好奇心自主生成任务，减少对人工数据的依赖。
设计自我导航机制，通过经验重用和混合策略提升探索效率。
引入自我归因机制，基于步骤贡献分配细粒度奖励，提高样本利用率。
构建统一框架，将任务生成、轨迹探索和策略优化集成到自进化循环中。
提供模块化基础设施，支持多环境交互和可扩展的二次开发。

原文、这里https://mp.weixin.qq.com/s/98X1p72PwWboquEaC_79OA

四、研究方法与原理

AgentEvolver的核心思路是让大语言模型（LLM）自主驱动代理的学习过程，通过环境交互实现持续进化。

自我提问（Self-Questioning）：代理通过好奇心探索环境，生成多样化任务。环境沙盒定义为，其中为状态空间，为动作空间，为转移概率。任务生成函数将环境映射到任务分布，用户偏好指导任务合成。
自我导航（Self-Navigating）：代理重用历史经验提升探索效率。经验池通过轨迹处理流程构建，检索时计算查询与经验的余弦相似度，返回Top- 相关经验。混合 rollout 生成轨迹集，优势值标准化为。优化目标结合经验剥离和选择性提升，避免过拟合。
自我归因（Self-Attributing）：LLM 评估每一步动作的贡献，构建过程奖励（6000 对应 +1，8A0 对应 -1）。标准化后与结果奖励融合为复合奖励。优势值用于策略优化，超参数平衡过程与结果权重。

五、实验设计与结果分析

实验设置：使用 AppWorld 和 BFCL-v3 基准，评估指标为任务目标完成率（TGC）的 avg@8 和 best@8，最大轨迹步数为30。基线为 Vanilla GRPO，骨干模型为 Qwen2.5-7B/14B。

对比实验（表1）：

AgentEvolver 在 7B 模型上平均 TGC 提升 29.4%，14B 模型提升 27.8%。自我提问机制贡献最大，单独使用可将 7B 模型性能从 15.8% 提升至 36.1%。

消融实验：

自我提问（图12a）：

数据量从100增至500，性能持续提升但增益递减。

自我导航（表4、图13）：经验指导使推理性能提升 15.4%，隐式学习优于显式指导。

自我归因（表5、图15）：双通道奖励（过程+结果）效果最佳，样本效率提高 55%-67%。

超参数分析（图16）：平衡收敛速度与长期性能。

上下文管理模板（表7）：自管理模板（SCMT）在长视野任务中表现最优，TGC@8 达 0.720。

六、论文结论与评价

总结：AgentEvolver 通过三大机制系统解决了任务稀缺、探索低效和样本浪费问题，实验证明其在多个基准上实现显著性能提升，且具备跨领域泛化能力。

评价：该框架为构建自适应代理提供了可行路径，但依赖 LLM 判断可能引入偏差，未来需在复杂现实任务中验证。其模块化设计鼓励扩展，但计算成本较高，需进一步优化效率。

原文、这里：LLM Agent训练新范式！阿里 AgentEvolver三协同机制，攻克任务稀缺与探索低效难题，性能碾压传统 RL 方法https://mp.weixin.qq.com/s/98X1p72PwWboquEaC_79OA

往期推荐

强烈推荐！多模态融合顶会新成果！CVPR/AAAI 高分成果，这波思路必须学！

OCR “去幻觉” 新纪元！通义点金 OCR-R1 搞定模糊盖章+跨页表格，攻克 OCR 三大痛点！

NeurIPS'2025高分入选！扩散模型+Transformer，效率与质量双线飙升！

杀疯了！2025 最新Agent Memory顶会论文，拿捏发文密码！

ICCV 2025｜FrDiff：频域魔法+扩散模型暴力去雾，无监督性能刷爆榜单！

NeurIPS 2025 | 港科大&上交大HoloV：多模态大模型“瘦身”新突破，剪枝88.9%视觉Token，性能几乎无损

太牛了！北大：Unified-GRPO让理解生成正反馈，超 GPT-4o-Image

越来越感觉「大模型+强化学习」是未来！ ICLR/ICML/AAAI 最新论文整理，这波组合太能打了！

推荐系统 “效率革命”！字节OneTrans：统一 Transformer 融序列建模 + 特征交互，训练推理双提速

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。