论文阅读_1_大模型记忆反思_《Reflexion: Language Agents with Verbal Reinforcement Learning》

1.解决的问题和提出的方法

(1)解决问题:强化Agent(非参数更新) 反思能力

(2)解决方法:提出Reflexion框架,通过自然语言反馈而非更新参数来强化Agent。把任务反馈信号作为短时记忆,引导后续的决策。

(3)效果:For example, Reflexion achieves a 91% pass@1 accuracy on the HumanEval coding benchmark, surpassing the previ- ous state-of-the-art GPT-4 that achieves 80%. We also conduct ablation and analysis studies using different feedback signals, feedback incorporation methods, and agent types, and provide insights into how they affect performance.

2.引言

依赖大模型的Agent 决策能力受限于in-context的学习样本,传统强化学习方法大量时间去更新和训练参数。这篇文章我们提出一种方法:Reflexion,这种方法用语言强化来帮助Agent从过去的失败中学习成长。Reflexion把从环境中的得到的二元或者标量的反馈转换成文本摘要。并将其作为附加的上下文添加到会话中。帮助完成下一步决策,模仿人类反思的过程。

生成有用的反思比较难,因为你不仅需要知道模型在哪里犯错,并且有能力给模型提供一些改善效果的可执行建议。本文提出三种方法来生成反馈性的反思:

(1)简单的二值反馈反馈;

(2)对常见的失败预定义一些策略。

(3)自我评价(大模型或者测试单元)

Reflexion和传统的强化学习相比有以下优势:

(1)是轻量的不需要finetune大模型;

(2)比起只能使用标量或者向量化的反馈,他能使用更多类型的反馈。

(3)对历史经验有更具体和可解释性瞬时记忆形式。(4)对未来的流程有更明确的提示。缺

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值