Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
最新推荐文章于 2025-11-25 12:11:01 发布
本文提出R3方法,通过反向课程强化学习实现大型语言模型的推理能力提升,仅用结果监督替代过程监督。R3在多个推理任务上表现出色,无需额外数据,效果媲美更大规模或闭源模型。

已下架不支持订阅
275

被折叠的 条评论
为什么被折叠?



