一、强化学习(RL)理论与基础
1.1 强化学习的定义与核心概念
强化学习是机器学习的一个分支,研究智能体(Agent)如何通过与环境(Environment)交互,学习最优策略以最大化长期累积奖励。强化学习的核心思想是试错学习,智能体通过尝试不同动作,观察环境反馈(奖励和状态变化),逐步优化决策过程。
-
关键组件:
- 智能体(Agent):决策者,基于策略选择动作。
- 环境(Environment):提供状态、接受动作、返回奖励。
- 状态(State, s):环境在某一时刻的描述,可能离散(如棋盘位置)或连续(如机器人传感器数据)。
- 动作(Action, a):智能体的决策,可能离散(如“左移”)或连续(如电机转速)。
- 奖励(Reward, r):环境对动作的即时反馈,可能是标量(如 +1 表示成功)。
- 策略(Policy, π):从状态到动作的映射,分为:
- 确定性策略:π(s)=aπ(s) = aπ(s)=a
- 随机性策略:π(a∣s)π(a|s)π(a∣s) 表示动作概率分布
- 价值函数(Value Function):
- 状态价值函数 V(s)V(s)V(s):在状态 sss 下,遵循策略 πππ 的期望累积奖励。
- 动作价值函数 Q(s,a)Q(s, a)Q(s,a):在状态 sss 采取动作 aaa,之后遵循策略 πππ 的期望累积奖励。
- 折扣因子(Discount Factor, γ∈[0,1]γ ∈ [0,1]γ∈[0,1]):平衡短期与长期奖励,γγγ 越小越注重短期收益。
-
数学框架:马尔可夫决策过程(MDP)
强化学习问题通常建模为 MDP,定义为五元组 (S,A,P,R,γ)(S, A, P, R, γ)(S,A,P,R,γ):- SSS:状态空间(离散或连续)
- AAA:动作空间(离散或连续)
- P(s′∣s,a)P(s'|s, a)P(s′∣s,a):状态转移概率,表示从状态 sss 采取动作 aaa 转移到状态 s′s's′ 的概率。
- R(s,a)R(s, a)R(s,a):奖励函数,定义即时奖励。
- γγγ:折扣因子。
目标是找到最优策略 π∗π^*π∗,最大化期望累积奖励:
J(π)=Eπ[∑t=0∞γtrt]J(π) = \mathbb{E}_{π} \left[ \sum_{t=0}^\infty γ^t r_t \right]J(π)=Eπ[∑t=0∞γtrt] -
贝尔曼方程:
价值函数满足递归关系:
Vπ(s)=Eπ[r(s,a)+γVπ(s′)]V^π(s) = \mathbb{E}_{π} \left[ r(s, a) + γ V^π(s') \right]Vπ(s)=Eπ[r(s,a)+γVπ(s′)]
Qπ(s,a)=r(s,a)+γEs′∼P[Vπ(s′)]Q^π(s, a) = r(s, a) + γ \mathbb{E}_{s' \sim P} \left[ V^π(s') \right]Qπ(s,a)=r(s,a)+γEs′∼P[Vπ(s′)]
最优策略对应的价值函数满足贝尔曼最优方程:
V∗(s)=maxa[r(s,a)+γEs′∼P[V∗(s′)]]V^*(s) = \max_a \left[ r(s, a) + γ \mathbb{E}_{s' \sim P} \left[ V^*(s') \right] \right]V∗(s)=maxa[r(s,a)+γEs′∼P[V∗(s′)]]
1.2 强化学习的分类
强化学习算法根据学习方式可分为三大类:
- 基于价值的(Value-Based):
- 学习价值函数(如 Q(s,a)Q(s, a)Q(s,a)),通过最大化价值选择动作。
- 代表算法:Q-Learning、Deep Q-Network (DQN)。
- 基于策略的(Policy-Based):
- 直接优化策略 π(a∣s;θ)π(a|s; θ)π(a∣s;θ),通常用神经网络参数化。
- 代表算法:REINFORCE、TRPO、PPO。
- Actor-Critic 方法:
- 结合价值函数(Critic)和策略(Actor),Actor 决定动作,Critic 评估动作质量。
- 代表算法:A2C、SAC、TD3。
1.3 核心算法详解
1.3.1 基于价值的算法
-
Q-Learning:
- 目标:学习最优 QQQ 函数 Q∗(s,a)Q^*(s, a)Q∗(s,a)。
- 更新公式(基于时序差分,Temporal Difference, TD):
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]Q(s, a) \leftarrow Q(s, a) + α \left[ r + γ \max_{a'} Q(s', a') - Q(s, a) \right]Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]
其中 ααα 是学习率,rrr 是即时奖励,s′s's′ 是下一状态。 - 特点:无模型(Model-Free),适用于离散动作空间。
- 局限:无法处理高维状态或连续动作空间。
-
Deep Q-Network (DQN):
- 使用深度神经网络逼近 QQQ 函数,输入状态(如图像),输出各动作的 QQQ 值。
- 关键技术:
- 经验回放(Experience Replay):存储交互数据 (s,a,r,s′)(s, a, r, s')(s,a,r,s′),随机采样打破时间相关性。
- 目标网络(Target Network):使用固定参数的目标网络计算 Q(s′,a′)Q(s', a')Q(s′,a′),每隔一定步数更新,稳定训练。
- ε-greedy 探索:以概率 εεε 随机选择动作,平衡探索与利用。
- 损失函数:
L(θ)=E[(r+γmaxa′Q(s′,a′;θ−)−Q(s,a;θ))2]L(θ) = \mathbb{E} \left[ \left( r + γ \max_{a'} Q(s', a'; θ^-) - Q(s, a; θ) \right)^2 \right]L(θ)=E[(r+γmaxa′Q(s′,a′;θ−)−Q(s,a;θ))2]
其中 θθθ 是主网络参数,θ−θ^-θ− 是目标网络参数。 - 案例:DeepMind 在 Atari 游戏中用 DQN 达到人类水平(2015)。
1.3.2 基于策略的算法
-
REINFORCE:
- 直接优化策略 π(a∣s;θ)π(a|s; θ)π(a∣s;θ),目标是最大化期望回报 J(θ)J(θ)J(θ):
J(θ)=Eπ[∑t=0∞γtrt]J(θ) = \mathbb{E}_{π} \left[ \sum_{t=0}^\infty γ^t r_t \right]J(θ)=Eπ[∑t=0∞γtrt] - 策略梯度定理:
∇θJ(θ)=E[∇θlogπ(a∣s;θ)⋅Gt]\nabla_θ J(θ) = \mathbb{E} \left[ \nabla_θ \log π(a|s; θ) \cdot G_t \right]∇θJ(θ)=E[∇θlogπ(a∣s;θ)⋅Gt]
其中 GtG_t
- 直接优化策略 π(a∣s;θ)π(a|s; θ)π(a∣s;θ),目标是最大化期望回报 J(θ)J(θ)J(θ):

最低0.47元/天 解锁文章
15万+

被折叠的 条评论
为什么被折叠?



