【机器学习】机器学习的基本分类-强化学习-Q-Learning

机器学习之Q-Learning算法详解

最新推荐文章于 2025-04-02 16:06:47 发布

原创最新推荐文章于 2025-04-02 16:06:47 发布 · 996 阅读

CC 4.0 BY-SA版权

文章标签：

121 篇文章

订阅专栏

104 篇文章

订阅专栏

Q-Learning 是一种经典的强化学习算法，用于解决离散状态和动作空间的强化学习问题。其目标是找到一个最优策略，使智能体能够在与环境的交互中最大化累积奖励。

通过迭代更新动作值函数 $Q(s, a)$ ，使其收敛到最优值 $Q^*(s, a)$ 。最优值函数 $Q^*(s, a)$ 满足 Bellman 最优方程：

$Q^*(s, a) = \mathbb{E}_{s'} \left[ R + \gamma \max_{a'} Q^*(s', a') \right]$

这里：

智能体根据 $Q(s, a)$ 构造策略 $\pi(s)$ ，选择使 $Q(s, a)$ 最大的动作。

初始化：
- 初始化 $Q(s, a) = 0$ 或随机值，表示每个状态-动作对的初始估计值。
- 设置学习率 $\alpha$ 和折扣因子 $\gamma$ 。
循环更新（直到收敛或达到最大迭代次数）：
1. 从环境中获取当前状态 $s$ 。
2. 使用 探索与利用策略 选择动作：
  - 探索：随机选择动作（以一定概率 $\epsilon$ ）。
  - 利用：选择使 $Q(s, a)$ 最大的动作。
3. 执行动作 aaa，获得即时奖励 $R$ 和下一状态 $s'$ 。
4. 更新 $Q(s, a)$ ：
  
  $Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]$
5. 将状态更新为 $s'$ ，重复步骤 2。
输出最终策略：
$\pi(s) = \arg\max_a Q(s, a)$

学习率 $\alpha$ ：决定新信息对更新的影响程度，取值范围为 $0 < \alpha \leq 1$ 。
- $\alpha \to 1$ ：仅考虑最新经验，忽略历史信息。
- $\alpha \to 0$ ：忽略最新经验，几乎不更新。
折扣因子 $\gamma$ ：衡量未来奖励的重要性，取值范围为 $0 \leq \gamma \leq 1$ 。
- $\gamma \to 1$ ：更加关注长期回报。
- $\gamma \to 0$ ：只关心即时奖励。
更新规则：利用新的经验 $R + \gamma \max_{a'} Q(s', a')$ 修正当前 $Q(s, a)$ ，使其逐渐逼近真实值。

假设一个 3x3 的网格世界，智能体可以选择四个动作：向上、向下、向左、向右。目标是从左上角移动到右下角，获得最大的累积奖励。

更新规则：

$Q(s, a) \leftarrow Q(s, a) + \alpha \left[ R + \gamma Q(s', a') - Q(s, a) \right]$
与 Q-Learning 的区别：SARSA 在更新时使用智能体实际选择的动作 $a'$ ，而不是使用最大化的 $\max_{a'} Q(s', a')$ 。