
强化学习
文章平均质量分 63
whatever_ittakes
这个人不神秘,什么也没留下,但将来会创造出自己的一片天地
展开
-
sonic | | A2C | | Mujoco | | 失败的复现
进度 项目怎么运行? 文档说明原创 2021-09-19 20:55:38 · 218 阅读 · 0 评论 -
强化学习公开课学习日志
文章目录前言公开课David深度强化学习算法学习0908 第三课---动态规划 前言 希望自己可以更新得快一点 公开课 David深度强化学习算法学习 David Silver强化学习公开课中文讲解及实践 示例代码资源地址 课件 0908 第三课—动态规划 辅助理解 代码理解 利用格子世界举例来描述DP edition_1—策略评估 首先初始化状态/行为空间 以及Value值 然后使用n次迭代计算来评估一个MDP在给定策略Pi(此时策略pi为平均策略–> 每个行为都需要尝试)下的状态价值,初始时原创 2021-09-11 19:52:34 · 440 阅读 · 0 评论