Introduction
上一节说的是value function approximation,使用的是函数拟合。这一节说的就是采用概率的方法来表示:这一节主要是讲model-free的方法。
RL有value-base,policy-based,以及把两者进行结合的actor-aritic的方法。
使用policy-based RL的好处在于:更容易收敛;在高维和连续动作空间更有效;可以进行stochastic学习。坏处在于它容易陷入局部最优并且evaluate比较低效。
对于上面的policy进行evaluate,那么就把整个action到state的value都加起来取平均值:(这里的d就是Markov链分布)
基于policy的RL就是要最大化J( θ )。有些方法如Hill Climbing,Simplex(Amoeba,Nelder Mead),Genetic Algorithms不使用gradient,但是又有比如Gradient Descent,Conjugate gradient,Quasi-Newton使用gradient descent。
Finite Difference Policy Gradient
思路就是对J( <

本文深入探讨了强化学习中的Policy Gradient方法,包括Finite Difference Policy Gradient和Monte-Carlo Policy Gradient。Policy-based RL因其在高维和连续动作空间的优势而受到关注,但也存在陷入局部最优的问题。Actor-Critic策略通过结合value-based和policy-based,降低了方差并提高了效率,其核心在于利用critic估计action-value函数,指导actor的参数更新。
最低0.47元/天 解锁文章
1104

被折叠的 条评论
为什么被折叠?



