SELF-REFINE: Iterative Refinement with Self-Feedback

Abstract

  • 大语言并不是总能在第一次生成内容时就产生最佳输出,作者从人类改进他们的写作的方式获得启发,提出了self-refine,一种通过迭代反馈和细化来改进llm的初始输出的方法。
  • 主要思想是:先让大语言模型生成一个初始输出,然后,用相同的大语言模型对其输出进行反馈,并同时迭代和完善自己。
  • self-refine不需要任何有监督的训练数据,额外的训练或者强化学习,而是使用一个LLM作为生成器、细化器和反馈提供者。我们使用使用最先进的LLM,评估了7个不同的任务,从对话响应到数学推理,比使用相同LLM生成的任务,在任务性能上平均提高了20%。我们的工作表明,即使是像GPT-4这样的最先进的LLM,也可以在测试时使用我们简单的、独立的方法进行进一步改进。

Introduction

  • self-refine:在两个步骤间交替进行:反馈和改进。
    给定一个由模型M生成的初始输出,我们将其传回相同的模型M以获得反馈,然后,反馈传递回相同的模型,以细化之前生成的方案,这个过程会持续一定的次数,直到M确定不需要进一步地细化。我们使用few-shot指导M产生反馈,并将反馈纳入了改进的草案之中。
    在这里插入图片描述
    结果表明,即使LLM在第一次尝试时不能生成最优输出,LLM通常也可以提供有用的反馈,并相应地改进自己的输出。反过来,自我优化提供了一种有效的方法,通过迭代(自)反馈和细化,不需要任何额外的训练,从单个模型中获得更好的输出。
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江安的猪猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值