强化学习：LLM常用RLHF算法PPO近端策略优化

原创

于 2025-12-11 10:22:27 发布 · 391 阅读

CC 4.0 BY-SA版权

文章标签：

一、前言

强化学习（Reinforcement Learning, RL）是一种机器学习方法，其核心思想是智能体（Agent）通过与环境（Environment）的交互来学习如何采取行动，以最大化累积奖励（Reward）。

强化学习的基本要素包括：

强化学习的目标是：学习一个策略，使得智能体在长期交互中获得的累积奖励最大。

学习过程通常遵循“试错”机制：智能体尝试不同动作，观察奖励和状态变化，并逐步调整策略，以期望在未来获得更高回报，其通过“状态—动作—奖励”的反馈机制，让智能体在与环境的交互中自主学习最优行为策略。它广泛应用于游戏 AI（如 AlphaGo）、机器人控制、自动驾驶、推荐系统等领域。

现代主流深度强化学习算法汇总

算法	类型	核心思想	适用场景
DQN	Value-based, Off-policy	深度网络 + 经验回放 + 目标网络	离散动作（Atari 游戏）
PPO（Proximal Policy Optimization）	Policy-based, On-policy	用裁剪机制约束策略更新步长，稳定高效	通用（机器人、游戏）
SAC	Actor-Critic, Off-policy	最大熵目标 + 双 Q 网络 + 自动调温	连续控制（机器人、自动驾驶）
TD3	Actor-Critic, Off-policy	DDPG 的改进：双 Q、延迟更新、目标策略平滑	连续控制
Rainbow DQN	Value-based	集成 6 种 DQN 改进（如 Dueling、Prioritized Replay）	离散动作 SOTA（2017）