本文是LLM系列文章,针对《RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION》的翻译。
摘要
近几个月来,出现了一种强大的新趋势,即大型语言模型(LLM)被增强,成为能够独立执行面向目标的多步骤任务的自主语言代理,而不仅仅是响应人类用户的查询。然而,大多数现有的语言代理并没有使用特定于环境的奖励进行优化。尽管一些代理可以通过口头反馈进行迭代细化,但它们不会以与基于梯度的奖励学习兼容的方式进行推理和规划。本文介绍了一个通过学习回顾模型来增强大型语言代理的原则框架,该模型通过策略梯度从环境反馈中自动调整语言代理提示。具体而言,我们提出的代理架构从多个环境和任务的奖励中学习,以微调预训练的语言模型,该模型通过总结先前失败尝试的根本原因并提出行动计划来改进语言代理提示。在各种任务上的实验结果表明,语言代理会随着时间的推移而改进,并且我们的方法大大优于没有适当利用环境梯度的基线。这表明,使用策略梯度优化来改进语言代理(我们相信我们的工作是第一批)似乎很有前景,可以应用于优化代理体系结构中的其他模型,以随着时间的推移提高代理性能。
1 引言
2 相关工作
3 挑战
4 直觉
5 符号与公式
6 我们的方法:强化回溯性语言代理
7 实验
8 结论
在这项研究中,我们提出了Retroformer,这是一个通过学习插件回顾模型来迭代改进大型语言代理的优

Retroformer是一种强化学习框架,通过策略梯度优化从环境反馈中改进大型语言模型的提示。这种方法允许代理学习回顾模型,分析失败原因并提出行动计划,从而在多步骤任务中提升性能。实验表明,Retroformer在多种任务上超越基线,且适用于不同类型的云托管LLM,如GPT和Bard。
订阅专栏 解锁全文
774

被折叠的 条评论
为什么被折叠?



