目录
8.3 PPO / A2C / 近端方法在文本策略上的实践要点
8.5.1 DeepSeek-R1-Zero(纯 RL)关键点复盘
8.6 DPO / Preference-based 方法补充
policy.py — Policy wrapper(采样、logprob、LoRA 集成)
reward.py — 奖励计算模块(可替换的 RM 接口)
train_grpo.py — GRPO 训练主循环(伪实用实现)
train_ppo.py — PPO 实现要点(LoRA + Critic)
8.0 概览与目标陈述
将 ReAct 看作一个策略的核心思想是:把“思考(Thought)+行动(Action)”看成策略决策单元,用 RL 在策略空间中直接优化长期回报。这样可以把复杂的自纠错与多步规划逻辑内化到模型权重中,从而降低 inference 时对冗长 system prompt 的依赖、提升稳定性和可重复性、并改善长期目标(如多步任务的最终成功率)。
8.1 为什么引入 RL
-
从统计视角:prompt-only 方法相当于条件生成的零样本或少样本模拟,其方差来源于随机采样与上下文敏感性。RL 通过对长期回报求期望并使用基线/优势(baseline/advantage)来显著降低估计方差并改进策略稳定性(更低波动的决策分布)。
-
信用分配(Credit Assignment):多步骤错误难以通过静态 pr
订阅专栏 解锁全文
1800

被折叠的 条评论
为什么被折叠?



