本文是LLM系列文章,针对《RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION》的翻译。
摘要
近几个月来,出现了一种强大的新趋势,即大型语言模型(LLM)被增强,成为能够独立执行面向目标的多步骤任务的自主语言代理,而不仅仅是响应人类用户的查询。然而,大多数现有的语言代理并没有使用特定于环境的奖励进行优化。尽管一些代理可以通过口头反馈进行迭代细化,但它们不会以与基于梯度的奖励学习兼容的方式进行推理和规划。本文介绍了一个通过学习回顾模型来增强大型语言代理的原则框架,该模型通过策略梯度从环境反馈中自动调整语言代理提示。具体而言,我们提出的代理架构从多个环境和任务的奖励中学习,以微调预训练的语言模型,该模型通过总结先前失败尝试的根本原因并提出行动计划来改进语言代理提示。在各种任务上的实验结果表明,语言代理会随着时间的推移而改进,并且我们的方法大大优于没有适当利用环境梯度的基线。这表明,使用策略梯度优化来改进语言代理(我们相信我们的工作是第一批)似乎很有前景,可以应用于优化代理体系结构中的其他模型,以随着时间的推移提高代理性能。