RAGEN 与 StarPO 框架：如何让 LLM 在多轮交互中自我进化？

StarPO框架：多轮交互中LLM自我进化

最新推荐文章于 2025-12-04 15:03:47 发布

原创最新推荐文章于 2025-12-04 15:03:47 发布 · 1k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #强化学习 #大模型 #大语言模型 #LLM #大模型微调

论文阅读笔记专栏收录该内容

13 篇文章

订阅专栏

Wang, Zihan, et al. “Ragen: Understanding self-evolution in llm agents via multi-turn reinforcement learning.” arXiv preprint arXiv:2504.20073 (2025).

在当今的大模型研究中，我们常常看到 LLM 在问答式的单轮任务中表现出色，如解答数学问题或生成代码片段。然而，若想让模型成为一个能在复杂环境中自主决策、自我进化的“智能体”，比如玩转一款游戏，或完成一次完整的在线购物，我们面临的核心挑战便从“单轮静态生成”转向了“多轮动态交互”。

在这篇博客中，我们将深入解读论文《RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning》，它系统分析了在多轮任务中使用现有强化学习技术微调 LLM 的问题，并提出了 StarPO 训练框架作为解决方案。

文章目录

一、问题背景：从静态微调到动态交互的范式转变

要理解 RAGEN 的贡献，我们首先需要理解使用强化学习（RL）微调 LLM 的范式。传统的 LLM RL 微调，例如使用 PPO 或 DPO，通常被建模为一个单轮的马尔可夫决策过程。

状态 $s_t$ ：用户的 prompt + 当前已输出的前 t 个 token。
动作 $a_t$ ：模型预测的下一个 token。
奖励 $r_t$ ：仅提供终局奖励，由一个奖励模型根据 (提示, 回答) 对计算得出。
优化目标：最大化单轮问答的期望奖励。

这种方法在代码生成或数学解题等静态、单轮（single-turn）任务上取得了成功。然而，当我们将 LLM 置于一个多轮交互（multi-turn）的环境，如玩解谜游戏、操作网页时，上述建模方案则没那么合适了。智能体需要根据环境反馈，进行一系列的动作和思考（例如在“推箱子”游戏中，模型需要先观察地图，思考几步计划，执行移动，然后根据新的地图状态再次决策），这就构成了一个多轮轨迹。

RAGEN 论文发现，直接将单轮 RL 应用在多轮任务中，会引发三个核心问题：

训练不稳定性：多步决策的累积效应，会导致奖励和梯度信号极其不稳定，容易发生“训练崩溃”。
信用分配难题：一个最终的成功，其功劳应该如何分配给轨迹中早期的思考和动作？稀疏的最终奖励很难指导模型学习到有效的中间步骤。
推理行为退化：如果环境只奖励最终结果，模型可能会发现“思考”是一种负担，从而退化为不假思索地输出动作，损害其泛化能力。

二、核心方法：StarPO 框架与稳定化技术

为了应对多轮训练的挑战，RAGEN 论文提出了 StarPO 框架。

2.1 重新定义 MDP：轨迹级优化

StarPO将问题定义为一个完整的、多轮交互的MDP。

状态：是当前的环境观察（例如，游戏的文本界面）加上之前的交互历史。
动作：是模型每一步的结构化输出，格式为 <think>...推理过程...</think><answer>...可执行动作...</answer>。例如，在推箱子游戏中，动作可能是 <think>我需要先把左边的箱子向上推，腾出空间。</think><answer>Left || Up</answer>。
轨迹：一个完整的 K 轮交互序列被记为 $\tau = \{s_0, a_{0}, r_0, s_1, ..., s_K\}$ ，其中每个状态或动作，代表用户给的 prompt 和 LLM 的一次输出结果，奖励信号为原先 MDP 模型中的终局奖励信号。
目标：从最大化单轮奖励，转变为最大化整个轨迹的期望累积奖励 $J_{\text{StarPO}}(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}} [R(\tau)]$ 。

2.2 StarPO 如何与 PPO / GRPO 协同工作

StarPO 不是一个全新的 RL 算法，而是一个框架，它将 PPO 或 GRPO 等具体优化算法应用在轨迹级别，将整个 multi-turn 的 reward 信号全部计算进去：

2.2.1 PPO + StarPO：

PPO 需要一个 critic 估计每个状态的价值。
对于轨迹中的每个时间步，它使用广义优势估计（GAE, 相关参考博客 1 2）来计算优势 $A_t$ 。这个 $A_t$ 综合考虑了当前和未来的奖励，从而衡量在该时间步做出决策（包括推理和动作）的好坏。
然后，PPO 的目标函数被应用于轨迹中的每一个 token（包括 <think> 和 <answer> 里的所有 token），但每个 token 使用的优势值是其对应时间步的 $A_t$ 。

2.2.2 GRPO + StarPO：

GRPO 是一种无 critic 的简化方法。
它为每个完整的轨迹 $\tau_i$ 计算一个标量的、归一化的优势： $\hat{A}_i = (R(\tau_i) - \text{mean}) / \text{std}$ 。
然后，这个标量优势 $\hat{A}_i$ 会被分配给生成该轨迹的每一个 token。这意味着，同一个轨迹里所有的token，无论其贡献大小，在本次更新中共享相同的优势信号。

2.3 应对不稳定性：StarPO-S

RAGEN 通过实验发现，多轮 RL 训练极易陷入一种称为 “回声陷阱（Echo Trap）” 的不稳定模式：LLM 的推理变得重复单一，奖励方差崩溃，梯度爆炸，最终导致性能显著下降。为此，他们提出了添加稳定化技术的变体 StarPO-S，主要技术包括：

不确定性轨迹过滤：在每轮训练中，只保留那些奖励方差最高的前 25% 的轨迹。这个直觉类似于主动学习，让模型专注于学习最不确定、信息量最大的样本。
KL 项移除：从 PPO 目标中移除 KL 散度惩罚，减少对初始模型的约束，鼓励更多探索。
非对称裁剪：对 PPO 的裁剪范围进行修改，使用 $\epsilon_{low}=0.2, \epsilon_{high}=0.28$ ，允许模型更积极地从高奖励轨迹中学习。

三、实验设置：全面评估 LLM 能力

论文在四个精心设计的环境中评估 LLM：

Bandit：单轮随机选择任务。LLM 需根据选项的符号名称（如“Dragon” vs “Phoenix”）推断其奖励分布并选择。测试符号推理和风险感知。
Sokoban：经典推箱子游戏。LLM 需在网格中规划多步动作推动箱子到目标。特点是动作不可逆，测试长程规划能力。
FrozenLake：网格导航任务。LLM 需到达目标，但每一步都因“冰面”而可能滑向非预期方向。测试在随机环境下的稳健决策。
WebShop：真实的网页购物任务。LLM 需根据用户自然语言指令，通过搜索、点击等操作找到并购买商品。测试语言理解与真实世界交互。

评价指标，不仅包括成功率，还特别关注训练动态：

奖励标准差：行为多样性的早期指标，下降预示“回声陷阱”。
梯度范数：训练稳定性的直接反映，尖峰常预示崩溃。
输出熵：策略的随机性，稳定下降代表健康学习。
推理长度：<think>块的平均 token 数。

实验主要内容是 StarPO 框架自身的消融实验，即对比 StarPO (PPO)、StarPO (GRPO) 和加入了稳定技术的 StarPO-S。

模型：主实验使用 Qwen2.5-0.5B/3B。
硬件：在 NVIDIA H100/A100 GPU上，使用 FSDP 进行分布式训练，并利用 vLLM 加速轨迹生成。

关键超参数：

Rollout：每步从8个初始状态各采样16条轨迹。
更新：批量大小32，Adam优化器。
GAE：γ=1.0, λ=1.0（无折扣，全轨迹优化）。
熵奖励：β=0.001，鼓励探索。
格式惩罚：-0.1，强制模型使用结构化输出

四、核心实验结果与发现

4.1 训练不稳定性与“回声陷阱”

现象：在多轮 RL 中，智能体极易陷入“回声陷阱”，即，智能体输出内容模板趋同，行为多样性崩溃，奖励方差骤降，梯度出现尖峰，最终性能断崖式下跌。
例子：在 Bandit 任务中，训练初期的模型会多样地解读“Dragon”和“Phoenix”的象征意义；训练后期，模型输出全部收敛为千篇一律的“我选择Dragon”，不再进行实质推理。
相关指标：1 奖励变异性崩溃：从同一初始状态出发，不同 rollout 获得的奖励标准差急剧下降，表明策略行为变得单一、重复。2 梯度范数尖峰：在训练后期出现梯度爆炸，标志着参数更新极度不稳定，通常意味着性能的不可逆崩溃。
实验结果：StarPO-S 能显著延迟或完全避免崩溃，尤其是在符号环境中。

4.2 PPO 与 GRPO 的优劣

PPO：在确定性环境（如 Bandit, Sokoban）中更稳定，可能因为 critic 提供了更平滑的优势估计。
GRPO：在高度随机环境（如 FrozenLake）中表现更好，因为其免受了不准确的价值估计影响。
WebShop：因任务复杂且初始性能高，两种方法都能有效学习。

4.3 推理行为在 multi-turn 任务中不会自然涌现，且容易退化

单轮任务（如 Bandit）：显式的推理能显著提升模型在陌生变体任务上的泛化能力。
多轮任务：推理行为会随着训练逐渐退化（<think> 块变短），除非有细粒度的、针对推理本身的奖励信号。否则，在多轮、稀疏奖励的设置下，如果任务成功与否的最终奖励无法区分“通过正确推理成功”和“通过试错巧合成功”，那么对于模型而言，“不思考”直接试错就是一种更节能的策略。

4.4 规模效应与泛化

大模型在语言丰富的任务（Bandit, WebShop）上优势明显，能利用更强的先验知识。
小模型在符号性任务（Sokoban, FrozenLake）上，通过精心设计的 RL 训练，可以达到与零样本 GPT-4o 相近的性能，这凸显了方法本身的有效性。
泛化测试：在 SokobanNewVocab（新符号）和 LargeSokoban（更大网格）上的测试表明，高任务多样性（更多不同的初始状态）和适中的每轮动作预算（5-6 个）对泛化至关重要。任务多样性优于深度采样：在固定的计算预算下，使用更多不同的初始状态（Prompt），并为每个状态生成较少（如 4 个）的响应，比在少数状态上大量采样更能促进泛化。

4.5 实用技巧与资源考量

LoRA 微调：论文证明，使用 LoRA 进行参数高效微调，能达到与全参数微调相近的性能，同时GPU内存消耗降低 50% 以上，为资源有限的研究者提供了可行路径。
在线 Rollout：使用最新策略频繁收集轨迹（Online-1）相比重复利用旧轨迹，能带来更快收敛和更好性能，确保了训练数据与当前策略的对齐。