摘要
我们研究了具有自奖励推理能力的大语言模型(LLMs),这类模型能够在推理时,在没有外部反馈的情况下,逐步生成推理过程,并评估输出的正确性。这种一体化的方法,使单个模型能够独立地引导其推理过程,为模型部署带来了计算优势。
我们特别关注自我修正这一具有代表性的任务,在这个任务中,模型能够自主检测其回答中的错误、修改输出,并决定何时终止迭代优化循环。为了实现这一目标,我们提出了一种两阶段算法框架,仅使用模型自身生成的数据,构建具有自奖励推理能力的模型。在第一阶段,我们采用顺序拒绝采样的方法,合成包含自奖励和自我修正机制的长思维链轨迹。通过在这些精心整理的数据上对模型进行微调,使其能够学习自奖励和自我修正的模式。在第二阶段,我们通过基于规则的信号进行强化学习,进一步增强模型评估回答准确性和优化输出的能力。以Llama-3和Qwen-2.5为基础的实验表明,我们的方法优于模型固有的自我修正能力,并且性能可与依赖外部奖励模型的系统相媲美。
引言
大语言模型(LLMs)在数学和编程等推理相关任务中,展现出了卓越的能力。值得注意的例子包括ChatGPT(OpenAI,2023)、Claude(Anthropic,2023)和Gemini