【李宏毅深度强化学习笔记】3、Q-learning（Basic Idea）

最新推荐文章于 2025-04-16 09:00:00 发布

原创

最新推荐文章于 2025-04-16 09:00:00 发布 · 1w 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#深度强化学习 #Q-learning

【李宏毅深度强化学习笔记】1、策略梯度方法（Policy Gradient）

【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法

【李宏毅深度强化学习笔记】3、Q-learning（Basic Idea）（本文）

【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法

【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

【李宏毅深度强化学习笔记】7、Sparse Reward

【李宏毅深度强化学习笔记】8、Imitation Learning

-------------------------------------------------------------------------------------------------------

【李宏毅深度强化学习】视频地址：https://www.bilibili.com/video/av63546968?p=3

课件地址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html

-------------------------------------------------------------------------------------------------------

Q-learning

Q-learning 是 value-based 的方法，在这种方法中我们不是要训练一个 policy，而是要训练一个critic网络。critic 并不直接采取行为，只是对现有的 actor $\pi$ ，评价它的好坏。

Value-Fuction

critic 给出了一个 value function $V^\pi(s)$ ，代表在遇到游戏的某个 state 后，采取策略为 $\pi$ 的actor 一直玩到游戏结束，所能得到的 reward 之和。

$V^\pi(s)$ （即critic）的输入是某个state，输出是一个scalar标量。上图游戏画面中左边的 $V^\pi(s)$ 很大，因为当前怪物比较多，防护罩也没被摧毁，从此时玩到游戏结束得到的 reward 就会比较多；而相对的右边的 $V^\pi(s)$ 就比较小。综上 critic 的输出取决于两点：