
强化学习RL
文章平均质量分 76
TAICHIFEI
上士闻道,勤而行之;中士闻道,若存若亡;下士闻道,大笑之。不笑不足以为道。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习-轨迹数据(Trajectory Data)
Trajectory Data 是强化学习中至关重要的概念,反映了智能体在特定策略下的学习过程和表现。它为策略评估、改进、经验回放、行为克隆和模型学习提供了基础数据,是强化学习算法有效运行和优化的核心。原创 2024-08-13 10:46:18 · 2157 阅读 · 0 评论 -
强化学习-优化策略算法(DPO和PPO)
• 基于强化学习中的策略梯度方法,PPO 改进了 Trust Region Policy Optimization (TRPO),通过引入剪切损失函数,限制策略更新的幅度,确保优化过程中的稳定性。• DPO 基于用户偏好或人类反馈的直接优化,这种方法的核心是对比学习或通过偏好数据进行的策略调整,理论上更接近人类反馈优化的范畴,且不需要明确的奖励函数。• DPO 更加侧重于直接优化用户偏好,适用于那些传统奖励难以定义的任务,通过直接利用反馈数据进行策略调整,提供了一种新的优化途径。原创 2024-09-02 16:04:11 · 1744 阅读 · 0 评论