强化学习+X

一、强化学习(RL)理论与基础

1.1 强化学习的定义与核心概念

强化学习是机器学习的一个分支,研究智能体(Agent)如何通过与环境(Environment)交互,学习最优策略以最大化长期累积奖励。强化学习的核心思想是试错学习,智能体通过尝试不同动作,观察环境反馈(奖励和状态变化),逐步优化决策过程。

  • 关键组件

    • 智能体(Agent):决策者,基于策略选择动作。
    • 环境(Environment):提供状态、接受动作、返回奖励。
    • 状态(State, s):环境在某一时刻的描述,可能离散(如棋盘位置)或连续(如机器人传感器数据)。
    • 动作(Action, a):智能体的决策,可能离散(如“左移”)或连续(如电机转速)。
    • 奖励(Reward, r):环境对动作的即时反馈,可能是标量(如 +1 表示成功)。
    • 策略(Policy, π):从状态到动作的映射,分为:
      • 确定性策略π(s)=aπ(s) = aπ(s)=a
      • 随机性策略π(a∣s)π(a|s)π(as) 表示动作概率分布
    • 价值函数(Value Function)
      • 状态价值函数 V(s)V(s)V(s):在状态 sss 下,遵循策略 πππ 的期望累积奖励。
      • 动作价值函数 Q(s,a)Q(s, a)Q(s,a):在状态 sss 采取动作 aaa,之后遵循策略 πππ 的期望累积奖励。
    • 折扣因子(Discount Factor, γ∈[0,1]γ ∈ [0,1]γ[0,1]:平衡短期与长期奖励,γγγ 越小越注重短期收益。
  • 数学框架:马尔可夫决策过程(MDP)
    强化学习问题通常建模为 MDP,定义为五元组 (S,A,P,R,γ)(S, A, P, R, γ)(S,A,P,R,γ)

    • SSS:状态空间(离散或连续)
    • AAA:动作空间(离散或连续)
    • P(s′∣s,a)P(s'|s, a)P(ss,a):状态转移概率,表示从状态 sss 采取动作 aaa 转移到状态 s′s's 的概率。
    • R(s,a)R(s, a)R(s,a):奖励函数,定义即时奖励。
    • γγγ:折扣因子。

    目标是找到最优策略 π∗π^*π,最大化期望累积奖励:
    J(π)=Eπ[∑t=0∞γtrt]J(π) = \mathbb{E}_{π} \left[ \sum_{t=0}^\infty γ^t r_t \right]J(π)=Eπ[t=0γtrt]

  • 贝尔曼方程
    价值函数满足递归关系:
    Vπ(s)=Eπ[r(s,a)+γVπ(s′)]V^π(s) = \mathbb{E}_{π} \left[ r(s, a) + γ V^π(s') \right]Vπ(s)=Eπ[r(s,a)+γVπ(s)]
    Qπ(s,a)=r(s,a)+γEs′∼P[Vπ(s′)]Q^π(s, a) = r(s, a) + γ \mathbb{E}_{s' \sim P} \left[ V^π(s') \right]Qπ(s,a)=r(s,a)+γEsP[Vπ(s)]
    最优策略对应的价值函数满足贝尔曼最优方程
    V∗(s)=max⁡a[r(s,a)+γEs′∼P[V∗(s′)]]V^*(s) = \max_a \left[ r(s, a) + γ \mathbb{E}_{s' \sim P} \left[ V^*(s') \right] \right]V(s)=maxa[r(s,a)+γEsP[V(s)]]

1.2 强化学习的分类

强化学习算法根据学习方式可分为三大类:

  1. 基于价值的(Value-Based)
    • 学习价值函数(如 Q(s,a)Q(s, a)Q(s,a)),通过最大化价值选择动作。
    • 代表算法:Q-Learning、Deep Q-Network (DQN)。
  2. 基于策略的(Policy-Based)
    • 直接优化策略 π(a∣s;θ)π(a|s; θ)π(as;θ),通常用神经网络参数化。
    • 代表算法:REINFORCE、TRPO、PPO。
  3. Actor-Critic 方法
    • 结合价值函数(Critic)和策略(Actor),Actor 决定动作,Critic 评估动作质量。
    • 代表算法:A2C、SAC、TD3。

1.3 核心算法详解

1.3.1 基于价值的算法

  • Q-Learning

    • 目标:学习最优 QQQ 函数 Q∗(s,a)Q^*(s, a)Q(s,a)
    • 更新公式(基于时序差分,Temporal Difference, TD):
      Q(s,a)←Q(s,a)+α[r+γmax⁡a′Q(s′,a′)−Q(s,a)]Q(s, a) \leftarrow Q(s, a) + α \left[ r + γ \max_{a'} Q(s', a') - Q(s, a) \right]Q(s,a)Q(s,a)+α[r+γmaxaQ(s,a)Q(s,a)]
      其中 ααα 是学习率,rrr 是即时奖励,s′s's 是下一状态。
    • 特点:无模型(Model-Free),适用于离散动作空间。
    • 局限:无法处理高维状态或连续动作空间。
  • Deep Q-Network (DQN)

    • 使用深度神经网络逼近 QQQ 函数,输入状态(如图像),输出各动作的 QQQ 值。
    • 关键技术:
      • 经验回放(Experience Replay):存储交互数据 (s,a,r,s′)(s, a, r, s')(s,a,r,s),随机采样打破时间相关性。
      • 目标网络(Target Network):使用固定参数的目标网络计算 Q(s′,a′)Q(s', a')Q(s,a),每隔一定步数更新,稳定训练。
      • ε-greedy 探索:以概率 εεε 随机选择动作,平衡探索与利用。
    • 损失函数:
      L(θ)=E[(r+γmax⁡a′Q(s′,a′;θ−)−Q(s,a;θ))2]L(θ) = \mathbb{E} \left[ \left( r + γ \max_{a'} Q(s', a'; θ^-) - Q(s, a; θ) \right)^2 \right]L(θ)=E[(r+γmaxaQ(s,a;θ)Q(s,a;θ))2]
      其中 θθθ 是主网络参数,θ−θ^-θ 是目标网络参数。
    • 案例:DeepMind 在 Atari 游戏中用 DQN 达到人类水平(2015)。

1.3.2 基于策略的算法

  • REINFORCE

    • 直接优化策略 π(a∣s;θ)π(a|s; θ)π(as;θ),目标是最大化期望回报 J(θ)J(θ)J(θ)
      J(θ)=Eπ[∑t=0∞γtrt]J(θ) = \mathbb{E}_{π} \left[ \sum_{t=0}^\infty γ^t r_t \right]J(θ)=Eπ[t=0γtrt]
    • 策略梯度定理:
      ∇θJ(θ)=E[∇θlog⁡π(a∣s;θ)⋅Gt]\nabla_θ J(θ) = \mathbb{E} \left[ \nabla_θ \log π(a|s; θ) \cdot G_t \right]θJ(θ)=E[θlogπ(as;θ)Gt]
      其中 GtG_t
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值