Self-rewarding correction for mathematical reasoning

摘要

我们研究了具有自奖励推理能力的大语言模型(LLMs),这类模型能够在推理时,在没有外部反馈的情况下,逐步生成推理过程,并评估输出的正确性。这种一体化的方法,使单个模型能够独立地引导其推理过程,为模型部署带来了计算优势。

我们特别关注自我修正这一具有代表性的任务,在这个任务中,模型能够自主检测其回答中的错误、修改输出,并决定何时终止迭代优化循环。为了实现这一目标,我们提出了一种两阶段算法框架,仅使用模型自身生成的数据,构建具有自奖励推理能力的模型。在第一阶段,我们采用顺序拒绝采样的方法,合成包含自奖励和自我修正机制的长思维链轨迹。通过在这些精心整理的数据上对模型进行微调,使其能够学习自奖励和自我修正的模式。在第二阶段,我们通过基于规则的信号进行强化学习,进一步增强模型评估回答准确性和优化输出的能力。以Llama-3和Qwen-2.5为基础的实验表明,我们的方法优于模型固有的自我修正能力,并且性能可与依赖外部奖励模型的系统相媲美。

引言

大语言模型(LLMs)在数学和编程等推理相关任务中,展现出了卓越的能力。值得注意的例子包括ChatGPT(OpenAI,2023)、Claude(Anthropic,2023)和Gemini

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值