Self-rewarding correction for mathematical reasoning

UnknownBody

于 2025-03-12 11:00:00 发布

阅读量152

点赞数 6

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM RL Causal and Reasoning 文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/146082680

LLM Daily 同时被 3 个专栏收录

1322 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Causal and Reasoning

101 篇文章

订阅专栏

38 篇文章

订阅专栏

摘要

我们研究了具有自奖励推理能力的大语言模型（LLMs），这类模型能够在推理时，在没有外部反馈的情况下，逐步生成推理过程，并评估输出的正确性。这种一体化的方法，使单个模型能够独立地引导其推理过程，为模型部署带来了计算优势。

我们特别关注自我修正这一具有代表性的任务，在这个任务中，模型能够自主检测其回答中的错误、修改输出，并决定何时终止迭代优化循环。为了实现这一目标，我们提出了一种两阶段算法框架，仅使用模型自身生成的数据，构建具有自奖励推理能力的模型。在第一阶段，我们采用顺序拒绝采样的方法，合成包含自奖励和自我修正机制的长思维链轨迹。通过在这些精心整理的数据上对模型进行微调，使其能够学习自奖励和自我修正的模式。在第二阶段，我们通过基于规则的信号进行强化学习，进一步增强模型评估回答准确性和优化输出的能力。以Llama-3和Qwen-2.5为基础的实验表明，我们的方法优于模型固有的自我修正能力，并且性能可与依赖外部奖励模型的系统相媲美。

引言

大语言模型（LLMs）在数学和编程等推理相关任务中，展现出了卓越的能力。值得注意的例子包括ChatGPT（OpenAI，2023）、Claude（Anthropic，2023）和Gemini

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。