强化学习 (Reinforcement Learning) 浅析

心碎小猫p

于 2025-02-09 19:59:13 发布

阅读量1k

点赞数 12

文章标签：人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_58811620/article/details/145533028

版权

一. 什么是强化学习

强化学习 (Reinforcement Learning, RL) , 又称增强学习, 是机器学习方法的一种, 用于描述和解决智能体 (agent) 在与环境 (Environment) 的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题.

The RL Process: a loop of state, action, reward and next state

图中的标签解释:

状态空间S: State, 指环境种所有可能状态的集合.
状态空间A: Action, 指智能体所有可能动作的集合.
奖励R: Reward, 指智能体在环境的某个状态下所获得的奖励.

智能体 (agent) 在与环境 (Environment) 的交互过程:

环境处于状态 St, 智能体获得奖励Rt.
智能体观测到状态 St 和奖励 Rt, 然后选择动作 At.
奖励R: Reward, 指智能体在环境的某个状态下所获得的奖励.

这个循环不断重复, 最终目标: 找到一个策略, 这个策略根据当前观测到的环境状态和奖励反馈, 来选择最佳的动作.

上述提到的 Rt 表示环境进入 St 下的即时奖励, 但是当下的动作还会影响的未来的状态和动作, 所以也要把即时收益和未来收益融合一起, 形成表达式: Vt = Rt + γV(t + 1).

Vt: t 时刻的总收益 (包含了即时和未来的总收益).
Rt: t 时刻的即使收益.
V(t + 1): t + 1 时刻的总收益 (也包含了即时和未来的总收益).
γ: 折扣因子, 决定未来收益的占比.

二. 强化学习具体流程

如果做强化学习, 一定要先有 SFT (监督学习微调) 模型, 再有 RM (训练奖励模型) 模型, 奖励模型的输入就是 SFT 的输出结果, 带入奖励模型种得到分数, 将刚才的两个模型进行再次的调优, 使用PPO 算法, 分数低就再次迭代更新 SFT 和 RM 模型, 使奖励最大化, 最终目的还是优化 SFT 模型.

三. RLHF-PPO 阶段的四个模型

演员模型 (Actor Model): 目标语

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。