
论文主要内容与创新点总结
一、主要内容
-
研究背景与目标
大语言模型(LLMs)在复杂任务中仍存在局限性,传统微调方法依赖大量标注数据或合成数据,但在数据稀缺时难以应用。本文提出通过自我反思(Self-Reflection) 和强化学习(Reinforcement Learning, RL) 结合的框架,让模型通过反思失败案例提升任务表现,且仅需二进制反馈(成功/失败)。 -
方法框架:Reflect, Retry, Reward
- 阶段一:失败反思:模型首次任务失败后,生成自我反思文本,分析错误原因。
- 阶段二:重试与奖励:基于反思文本重试任务,若成功则通过Group Relative Policy Optimization(GRPO) 算法奖励反思阶段的token,优化反思质量。
- 核心逻辑:不直接优化任务输出,而是通过强化学习让模型学会生成更有效的反思,从而提升通用推理能力。
-
实

订阅专栏 解锁全文
2002

被折叠的 条评论
为什么被折叠?



