【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)
【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法
【李宏毅深度强化学习笔记】3、Q-learning(Basic Idea)(本文)
【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法
【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)
【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
【李宏毅深度强化学习笔记】8、Imitation Learning
-------------------------------------------------------------------------------------------------------
【李宏毅深度强化学习】视频地址:https://www.bilibili.com/video/av63546968?p=3
课件地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
-------------------------------------------------------------------------------------------------------
Q-learning
Q-learning 是 value-based 的方法,在这种方法中我们不是要训练一个 policy,而是要训练一个critic网络。critic 并不直接采取行为,只是对现有的 actor ,评价它的好坏。
Value-Fuction
critic 给出了一个 value function ,代表在遇到游戏的某个 state 后,采取策略为
的actor 一直玩到游戏结束,所能得到的 reward 之和。
(即critic)的输入是某个state,输出是一个scalar标量。上图游戏画面中左边的
很大,因为当前怪物比较多,防护罩也没被摧毁,从此时玩到游戏结束得到的 reward 就会比较多;而相对的右边的
就比较小。综上 critic 的输出取决于两点:
- state,这个就是左右图对比,刚才说过了
- actor 的策略
,如果是个很弱的actor即便左图可能也得到很低的reward。
怎么计算呢?
计算
的2种方式:
1、Monte-Carlo (MC) based approach :
将作为
的输入最终输出
,而实际上应该得到的cumulative