
动态规划
zhaoying9105
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习中同步动态规划和异步动态规划 Synchronous and Asynchronous dynamic programminging
同步动态规划是基础:一次性更新所有的S的value。异步动态规划分集中常见类型: in-place 动态规划: 不对上一周期的value进行备份,直接使用这一周期的value(当然,本周期的value本来就是上一周期优化的结果,只是少了备份这一步,节省了一些内存)Prioritised Sweeping:计算优化目标值和现实值之差,对多个S计算后排成一列,差值大的在前,依次优化对应的s的原创 2017-06-19 15:21:58 · 3590 阅读 · 0 评论 -
强化学习中的backups
在强化学习中可能会遇到backups,意思就是备份,在本周期中进行评估或者优化的时候会用到上一个周期的value数据,或者策略数据,这些数据在上一个周期结束时都被备份起来了。backups有两种方式:Full-Width Backups: 全部备份,用于动态规划,实际上也不算是备份的意思,它需要的model,也就是状态转移概率函数和reward函数。Sample Backups: 采样备份,这个原创 2017-06-19 15:39:31 · 1736 阅读 · 0 评论