文章目录
Q-learning for Continuous Actions
Q:Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?
A:只要能够 estimate 出Q-function,就保证可以 improve 对应的 policy。而因为 estimate Q-function 作为一个回归问题,一般情况下只需要关注 regression 的 loss 有没有下降,就知道 model learn 的好不好。所以 estimate Q-function 相较于 learn 一个 policy 是比较容易的。
Solution1–sample action
随机sample出N个可能的action,然后和discrete action space 一样操作就好了
Solution2–gradient ascend
将action看为我们的变量,使用gradient ascend方法去update action对应的Q-value。
Solution3–design a network

- 产生的∑保证了其正定性,因此上式的第一项恒为负值,只需令 a = μ ( s ) a=μ(s) a=μ(s) 就可以确定Q值最大
Solution4–Don’t use Q-learning

结合 policy-based 的方法 PPO 和 value-based 的方法 Q-learning,就是 actor-critic 算法。