AGENTIC REINFORCED POLICY OPTIMIZATION

在这里插入图片描述

文章主要内容总结

本文针对基于大型语言模型(LLMs)的多轮智能体训练,提出了一种新的智能体强化学习算法——Agentic Reinforced Policy Optimization(ARPO)

现有强化学习(RL)算法在平衡LLMs的长程推理能力和多轮工具交互能力方面存在不足。作者通过实验发现,LLMs在与外部工具交互后,生成token的熵值会显著增加(表现出高度不确定性),而现有轨迹级RL算法往往忽视这种步骤级的不确定性,导致工具使用行为的探索不充分。

为此,ARPO引入了基于熵的自适应rollout机制,动态平衡全局轨迹采样和步骤级采样,在工具使用后的高不确定性步骤中促进多样化探索;同时,通过优势归因估计(包括硬优势和软优势两种设置),让LLMs内化步骤级工具交互中的优势差异。

实验在计算推理、知识推理和深度搜索等13个基准任务上验证了ARPO的优越性:其性能优于传统轨迹级RL算法,且仅需现有方法一半的工具使用预算,为LLM智能体与动态环境的对齐提供了可扩展方案。

创新点

  1. 揭示LLM工具交互中的熵特性:量化了LLMs在智能体推理中与工具交互后的token熵变化,指出轨迹级RL算法对这种步骤级不确定性的忽视。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值