微信公众号、知乎号(同名):李歪理,欢迎大家关注
在强化学习(九)策略梯度中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,这种采样方式的方差比较大,学习效率也比较低,同时单独对策略函数进行迭代更新,不太容易收敛。我们可以借鉴时序差分学习的思想,使用动态规划方法来提高采样效率,即从状态 s s s 开始的总回报可以通过当前动作的即时奖励 r ( s , a , s ′ ) r(s,a,s') r
订阅专栏 解锁全文
5089

被折叠的 条评论
为什么被折叠?



