
强化学习
喵呜嘻嘻嘻
这个作者很懒,什么都没留下…
展开
-
RLlib/Ray:踩坑记录
出现这种报错的原因是MultiDiscrete的取值范围是左闭右开。以第一个报错中的第十维为例,MultiDiscrete的取值范围是[0, 51),因此当observation对应维度为51时就会报错。原创 2023-07-13 11:52:22 · 448 阅读 · 0 评论 -
《Reinforcement Learning》第三章自学笔记
目录Multi-armed BanditsA kkk-armed Bandit ProblemMulti-armed Banditsevaluate (evaluative feedback) V.S. instruct (instructive feedback):区分强化学习(前者)和其他学习的最重要特征associative V.S. nonassociative:前者指的是when actions are taken in more than one situationA kkk-arm原创 2021-10-28 15:57:42 · 126 阅读 · 0 评论 -
深度强化学习(DRL)入门资料
DRL权威入门教程(估计看不懂):https://www.bilibili.com/video/BV1xp4y1q7kW?from=search&seid=6122807716326787903DRL权威入门书籍(估计看不下去):《Deep reinforcement learning: an introduction》 by Sutton莫烦RL基础入门课程+代码(太过简单,可以对RL做简单了解):https://mofanpy.com/李宏毅DRL教程(难度适中,讲解透彻;主要是近.原创 2021-05-28 15:16:03 · 345 阅读 · 0 评论