Q-learning

原创

已于 2025-05-05 03:27:46 修改 · 1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#RL #强化学习 #Q-learning

于 2025-04-25 15:07:34 首次发布

第一部分：强化学习基础

在深入探讨Q-learning之前，我们需要先理解强化学习的基本概念和框架，因为Q-learning是强化学习中的一种具体算法。

1.1 什么是强化学习？

强化学习是一种机器学习范式，目标是让智能体（Agent）通过与环境（Environment）的交互，学习如何采取行动以最大化长期的累积奖励（Cumulative Reward）。与监督学习（有明确标签）和无监督学习（寻找数据结构）不同，强化学习的特点包括：

试错学习：智能体通过尝试不同行动，观察结果，逐步改进策略。
延迟奖励：奖励可能不是即时的，智能体需要考虑长期收益。
序列决策：智能体的决策是连续的，每一步行动会影响后续状态。

强化学习的典型应用包括：

游戏（如AlphaGo）
机器人控制
自动驾驶
推荐系统

1.2 强化学习的数学框架

强化学习通常被建模为马尔可夫决策过程（Markov Decision Process, MDP），这是一个数学框架，包含以下核心元素：

状态（State, $S$ ）：
- 表示环境的某种配置。例如，在迷宫游戏中，智能体的位置是一个状态。
- 状态集合 $S\mathcal{S}$ 可以是离散的（如网格世界的格子）或连续的（如机器人的关节角度）。
动作（Action, $A$ ）：
- 智能体在某个状态下可以采取的决策。例如，在迷宫中，动作可能是“上、下、左、右”。
- 动作集合 $A\mathcal{A}$ 同样可以是离散的或连续的。
奖励（Reward, $R$ ）：
- 环境对智能体动作的反馈，是一个标量值。例如，走出迷宫可能得到 $+ 100$ 的奖励，撞墙可能得到 $- 1$ 。
- 奖励函数 $R (s, a, s^{'})$ 表示在状态 $s$ ，采取动作 $a$ ，转移到状态 $s^{'}$ 时获得的奖励。
状态转移概率（Transition Probability, $P$ ）：
- 描述环境如何根据智能体的动作从一个状态转移到另一个状态。
- 形式为 $P (s^{'} ∣ s, a)$ ，表示在状态 $s$ 采取动作 $a$ 后转移到状态 $s^{'}$ 的概率。
- 如果环境是确定性的，转移是固定的；如果是随机的，则有概率分布。
折扣因子（Discount Factor, $γ\gamma$ ）：
- $γ∈[0,1)\gamma \in [0, 1)$ ，用于平衡短期和长期奖励。
- 如果 $γ\gamma$ 接近 0，智能体更重视短期奖励；如果接近 1，则更关注长期奖励。

1.3 强化学习的目标

强化学习的目标是找到一个策略（Policy, $π\pi$ ），它告诉智能体在每个状态下应采取什么动作，以最大化期望累积奖励。策略可以是：

确定性策略： $π(s)=a\pi(s) = a$ ，在状态 $s$ 总是选择动作 $a$ 。
随机性策略： $π(a∣s)\pi(a | s)$ ，在状态 $s$ 选择动作 $a$ 的概率。

期望累积奖励（也叫回报，Return）定义为：
$Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$
其中 $R_{t+1}$ 是时间步 $t + 1$ 的奖励， $γ\gamma$ 是折扣因子。