强化学习
喵呜嘻嘻嘻
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RLlib/Ray:踩坑记录
出现这种报错的原因是MultiDiscrete的取值范围是左闭右开。以第一个报错中的第十维为例,MultiDiscrete的取值范围是[0, 51),因此当observation对应维度为51时就会报错。原创 2023-07-13 11:52:22 · 550 阅读 · 0 评论 -
《Reinforcement Learning》第三章自学笔记
目录Multi-armed BanditsA kkk-armed Bandit Problem Multi-armed Bandits evaluate (evaluative feedback) V.S. instruct (instructive feedback):区分强化学习(前者)和其他学习的最重要特征 associative V.S. nonassociative:前者指的是when actions are taken in more than one situation A kkk-arm原创 2021-10-28 15:57:42 · 172 阅读 · 0 评论 -
深度强化学习(DRL)入门资料
DRL权威入门教程(估计看不懂): https://www.bilibili.com/video/BV1xp4y1q7kW?from=search&seid=6122807716326787903 DRL权威入门书籍(估计看不下去): 《Deep reinforcement learning: an introduction》 by Sutton 莫烦RL基础入门课程+代码(太过简单,可以对RL做简单了解): https://mofanpy.com/ 李宏毅DRL教程(难度适中,讲解透彻;主要是近.原创 2021-05-28 15:16:03 · 374 阅读 · 0 评论
分享