【LLM强化学习】LLM 强化学习中 Critic 模型训练详解

基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 中,Critic 模型 (Critic Model) 扮演着至关重要的角色。它就像一位严苛的评分老师,负责评估 策略模型 (Policy Model) 生成的 responses 的质量,并提供 价值估计 (Value Estimation),指导策略模型向着更符合人类偏好的方向优化。

简单来说,Critic 模型的目标是学习一个价值函数 (Value Function),这个价值函数能够 预测在给定状态 (State) 下,采取某个行动 (Action) 所能获得的未来累积奖励 (Cumulative Reward) 的期望值。在 LLM 强化学习的语境下:

  • 状态 (State): 通常是输入给 LLM 的 prompt
  • 行动 (Action): LLM 生成的 response
  • 价值 (Value): response 的 质量评分人类偏好程度 的预测值。

本文将深入剖析 Critic 模型的训练细节,包括 输入输出设计、数据准备、模型结构选择、损失函数以及训练技

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kakaZhui

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值