在 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 中,Critic 模型 (Critic Model) 扮演着至关重要的角色。它就像一位严苛的评分老师,负责评估 策略模型 (Policy Model) 生成的 responses 的质量,并提供 价值估计 (Value Estimation),指导策略模型向着更符合人类偏好的方向优化。
简单来说,Critic 模型的目标是学习一个价值函数 (Value Function),这个价值函数能够 预测在给定状态 (State) 下,采取某个行动 (Action) 所能获得的未来累积奖励 (Cumulative Reward) 的期望值。在 LLM 强化学习的语境下:
- 状态 (State): 通常是输入给 LLM 的 prompt。
- 行动 (Action): LLM 生成的 response。
- 价值 (Value): response 的 质量评分 或 人类偏好程度 的预测值。
本文将深入剖析 Critic 模型的训练细节,包括 输入输出设计、数据准备、模型结构选择、损失函数以及训练技