
文章主要内容总结
本文针对基于大型语言模型(LLMs)的多轮智能体训练,提出了一种新的智能体强化学习算法——Agentic Reinforced Policy Optimization(ARPO)。
现有强化学习(RL)算法在平衡LLMs的长程推理能力和多轮工具交互能力方面存在不足。作者通过实验发现,LLMs在与外部工具交互后,生成token的熵值会显著增加(表现出高度不确定性),而现有轨迹级RL算法往往忽视这种步骤级的不确定性,导致工具使用行为的探索不充分。
为此,ARPO引入了基于熵的自适应rollout机制,动态平衡全局轨迹采样和步骤级采样,在工具使用后的高不确定性步骤中促进多样化探索;同时,通过优势归因估计(包括硬优势和软优势两种设置),让LLMs内化步骤级工具交互中的优势差异。
实验在计算推理、知识推理和深度搜索等13个基准任务上验证了ARPO的优越性:其性能优于传统轨迹级RL算法,且仅需现有方法一半的工具使用预算,为LLM智能体与动态环境的对齐提供了可扩展方案。
创新点
- 揭示LLM工具交互中的熵特性:量化了LLMs在智能体推理中与工具交互后的token熵变化,指出轨迹级RL算法对这种步骤级不确定性的忽视。

订阅专栏 解锁全文
1067

被折叠的 条评论
为什么被折叠?



