RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

828 篇文章

已下架不支持订阅

Retroformer是一种强化学习框架,通过策略梯度优化从环境反馈中改进大型语言模型的提示。这种方法允许代理学习回顾模型,分析失败原因并提出行动计划,从而在多步骤任务中提升性能。实验表明,Retroformer在多种任务上超越基线,且适用于不同类型的云托管LLM,如GPT和Bard。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION》的翻译。

摘要

近几个月来,出现了一种强大的新趋势,即大型语言模型(LLM)被增强,成为能够独立执行面向目标的多步骤任务的自主语言代理,而不仅仅是响应人类用户的查询。然而,大多数现有的语言代理并没有使用特定于环境的奖励进行优化。尽管一些代理可以通过口头反馈进行迭代细化,但它们不会以与基于梯度的奖励学习兼容的方式进行推理和规划。本文介绍了一个通过学习回顾模型来增强大型语言代理的原则框架,该模型通过策略梯度从环境反馈中自动调整语言代理提示。具体而言,我们提出的代理架构从多个环境和任务的奖励中学习,以微调预训练的语言模型,该模型通过总结先前失败尝试的根本原因并提出行动计划来改进语言代理提示。在各种任务上的实验结果表明,语言代理会随着时间的推移而改进,并且我们的方法大大优于没有适当利用环境梯度的基线。这表明,使用策略梯度优化来改进语言代理(我们相信我们的工作是第一批)似乎很有前景,可以应用于优化代理体系结构中的其他模型,以随着时间的推移提高代理性能。

1 引言

2 相关工作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值