强化学习+X

最新推荐文章于 2026-01-08 23:55:00 发布

原创

最新推荐文章于 2026-01-08 23:55:00 发布 · 863 阅读

·

16

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能 #强化学习

一、强化学习（RL）理论与基础

1.1 强化学习的定义与核心概念

强化学习是机器学习的一个分支，研究智能体（Agent）如何通过与环境（Environment）交互，学习最优策略以最大化长期累积奖励。强化学习的核心思想是试错学习，智能体通过尝试不同动作，观察环境反馈（奖励和状态变化），逐步优化决策过程。

关键组件：
- 智能体（Agent）：决策者，基于策略选择动作。
- 环境（Environment）：提供状态、接受动作、返回奖励。
- 状态（State, s）：环境在某一时刻的描述，可能离散（如棋盘位置）或连续（如机器人传感器数据）。
- 动作（Action, a）：智能体的决策，可能离散（如“左移”）或连续（如电机转速）。
- 奖励（Reward, r）：环境对动作的即时反馈，可能是标量（如 +1 表示成功）。
- 策略（Policy, π）：从状态到动作的映射，分为：
  - 确定性策略： $π (s) = a$
  - 随机性策略： $π (a ∣ s)$ 表示动作概率分布
- 价值函数（Value Function）：
  - 状态价值函数 $V (s)$ ：在状态 $s$ 下，遵循策略 $π$ 的期望累积奖励。
  - 动作价值函数 $Q (s, a)$ ：在状态 $s$ 采取动作 $a$ ，之后遵循策略 $π$ 的期望累积奖励。
- 折扣因子（Discount Factor, $γ \in [0, 1]$ ）：平衡短期与长期奖励， $γ$ 越小越注重短期收益。
数学框架：马尔可夫决策过程（MDP）
强化学习问题通常建模为 MDP，定义为五元组 $(S, A, P, R, γ)$ ：
- $S$ ：状态空间（离散或连续）
- $A$ ：动作空间（离散或连续）
- $P (s^{'} ∣ s, a)$ ：状态转移概率，表示从状态 $s$ 采取动作 $a$ 转移到状态 $s^{'}$ 的概率。
- $R (s, a)$ ：奖励函数，定义即时奖励。
- $γ$ ：折扣因子。
目标是找到最优策略 $π^*$ ，最大化期望累积奖励：
$\mathbb{E}_{π} \left[ \sum_{t=0}^\infty γ^t r_t \right]$
贝尔曼方程：
价值函数满足递归关系：
$Vπ(s)=Eπ[r(s,a)+γVπ(s′)]V^π(s) = \mathbb{E}_{π} \left[ r(s, a) + γ V^π(s') \right]$
$Qπ(s,a)=r(s,a)+γEs′∼P[Vπ(s′)]Q^π(s, a) = r(s, a) + γ \mathbb{E}_{s' \sim P} \left[ V^π(s') \right]$
最优策略对应的价值函数满足贝尔曼最优方程：
$V∗(s)=max⁡a[r(s,a)+γEs′∼P[V∗(s′)]]V^*(s) = \max_a \left[ r(s, a) + γ \mathbb{E}_{s' \sim P} \left[ V^*(s') \right] \right]$

1.2 强化学习的分类

强化学习算法根据学习方式可分为三大类：

基于价值的（Value-Based）：
- 学习价值函数（如 $Q (s, a)$ ），通过最大化价值选择动作。
- 代表算法：Q-Learning、Deep Q-Network (DQN)。
基于策略的（Policy-Based）：
- 直接优化策略 $π (a ∣ s; θ)$ ，通常用神经网络参数化。
- 代表算法：REINFORCE、TRPO、PPO。
Actor-Critic 方法：
- 结合价值函数（Critic）和策略（Actor），Actor 决定动作，Critic 评估动作质量。
- 代表算法：A2C、SAC、TD3。

1.3 核心算法详解

1.3.1 基于价值的算法

Q-Learning：
- 目标：学习最优 $Q$ 函数 $Q^*(s, a)$ 。
- 更新公式（基于时序差分，Temporal Difference, TD）：
  $\leftarrow Q(s, a) + α \left[ r + γ \max_{a'} Q(s', a') - Q(s, a) \right]$
  其中 $α$ 是学习率， $r$ 是即时奖励， $s^{'}$ 是下一状态。
- 特点：无模型（Model-Free），适用于离散动作空间。
- 局限：无法处理高维状态或连续动作空间。
Deep Q-Network (DQN)：
- 使用深度神经网络逼近 $Q$ 函数，输入状态（如图像），输出各动作的 $Q$ 值。
- 关键技术：
  - 经验回放（Experience Replay）：存储交互数据 $(s, a, r, s^{'})$ ，随机采样打破时间相关性。
  - 目标网络（Target Network）：使用固定参数的目标网络计算 $Q (s^{'}, a^{'})$ ，每隔一定步数更新，稳定训练。
  - ε-greedy 探索：以概率 $ε$ 随机选择动作，平衡探索与利用。
- 损失函数：
  $\mathbb{E} \left[ \left( r + γ \max_{a'} Q(s', a'; θ^-) - Q(s, a; θ) \right)^2 \right]$
  其中 $θ$ 是主网络参数， $θ^-$ 是目标网络参数。
- 案例：DeepMind 在 Atari 游戏中用 DQN 达到人类水平（2015）。

1.3.2 基于策略的算法

REINFORCE：
- 直接优化策略 $π (a ∣ s; θ)$ ，目标是最大化期望回报 $J (θ)$ ：
  $\mathbb{E}_{π} \left[ \sum_{t=0}^\infty γ^t r_t \right]$
- 策略梯度定理：
  $∇θJ(θ)=E[∇θlog⁡π(a∣s;θ)⋅Gt]\nabla_θ J(θ) = \mathbb{E} \left[ \nabla_θ \log π(a|s; θ) \cdot G_t \right]$
  其中 $G_t$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱看烟花的码农 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。