RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

UnknownBody

已于 2024-03-08 11:36:38 修改

阅读量331

点赞数

CC 4.0 BY-SA版权

分类专栏： Survey Paper LLM Agent 文章标签：人工智能算法深度学习

于 2023-08-15 15:39:28 首次发布

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/132300082

Survey Paper 同时被 3 个专栏收录

275 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM 日更

828 篇文章

已下架不支持订阅

LLM Agent

104 篇文章

订阅专栏

Retroformer是一种强化学习框架，通过策略梯度优化从环境反馈中改进大型语言模型的提示。这种方法允许代理学习回顾模型，分析失败原因并提出行动计划，从而在多步骤任务中提升性能。实验表明，Retroformer在多种任务上超越基线，且适用于不同类型的云托管LLM，如GPT和Bard。

本文是LLM系列文章，针对《RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION》的翻译。

摘要

近几个月来，出现了一种强大的新趋势，即大型语言模型（LLM）被增强，成为能够独立执行面向目标的多步骤任务的自主语言代理，而不仅仅是响应人类用户的查询。然而，大多数现有的语言代理并没有使用特定于环境的奖励进行优化。尽管一些代理可以通过口头反馈进行迭代细化，但它们不会以与基于梯度的奖励学习兼容的方式进行推理和规划。本文介绍了一个通过学习回顾模型来增强大型语言代理的原则框架，该模型通过策略梯度从环境反馈中自动调整语言代理提示。具体而言，我们提出的代理架构从多个环境和任务的奖励中学习，以微调预训练的语言模型，该模型通过总结先前失败尝试的根本原因并提出行动计划来改进语言代理提示。在各种任务上的实验结果表明，语言代理会随着时间的推移而改进，并且我们的方法大大优于没有适当利用环境梯度的基线。这表明，使用策略梯度优化来改进语言代理（我们相信我们的工作是第一批）似乎很有前景，可以应用于优化代理体系结构中的其他模型，以随着时间的推移提高代理性能。