
强化学习
文章平均质量分 92
失忆星辰
这个作者很懒,什么都没留下…
展开
-
TRPO(Trust Region Policy Optimization)原理讲解
TRPO(Trust Region Policy Optimization)解决了A-C框架中更新梯度步长大小的问题,采用一种相对保守的策略更新梯度,引入信任区域和KL散度约束,使得每次更新幅度受限制,主要是TRPO能找到一个好的步长α来更新参数θθα∇θJθ,除此之外,TRPO还加入了重要性采样IS和广义优势估计GAE还保证提高了样本的利用率。此时TRPO已经不严格满足on-policy算法,是一种近似算法了。下面讲解我们推导TRPO的过程。原创 2023-12-15 22:04:54 · 1615 阅读 · 0 评论 -
Actor-Critic及Advantage Actor-Critic(A2C)原理及实战讲解
本文将从REINFORCE算法的缺点入手,引入Actor-Critic网络的改进,并给出A2C的细节和实现代码。总的来说,Actor-Critic同时吸收了value-based和policy-based下的优点,不过本质上还是从policy-based开始改进的,这一系列算法的目标都是优化策略网络参数,只是引入了学习价值函数的网络帮助策略评估。原创 2023-12-15 13:14:09 · 3155 阅读 · 2 评论