论文主要内容与创新点总结
一、主要内容
-
研究背景与目标
大语言模型(LLMs)在复杂任务中仍存在局限性,传统微调方法依赖大量标注数据或合成数据,但在数据稀缺时难以应用。本文提出通过自我反思(Self-Reflection) 和强化学习(Reinforcement Learning, RL) 结合的框架,让模型通过反思失败案例提升任务表现,且仅需二进制反馈(成功/失败)。 -
方法框架:Reflect, Retry, Reward
- 阶段一:失败反思:模型首次任务失败后,生成自我反思文本,分析错误原因。
- 阶段二:重试与奖励:基于反思文本重试任务,若成功则通过Group Relative Policy Optimization(GRPO)</