强化学习
布纸所云
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【强化学习】MCTS: 蒙特卡洛树搜索
Monte-Carle 树搜索是一种前向搜索(Forward Search)用的是基于采样的模型可以先看一下下文中的一个例子,mini-max搜索是一种传统的博弈树算法,在国际象棋中获得了比较好的应用。但是需要遍历整个游戏树,对于棋格树多许多的围棋,构建完整的游戏树代价是十分昂贵的。28 天自制你的 AlphaGo (6) : 蒙特卡洛树搜索(MCTS)基础选择 Selection:从根节点 R 开始,递归选择最优的子节点(后面会解释)直到达到叶子节点 L。扩展 Expans.原创 2020-10-15 08:31:19 · 3120 阅读 · 0 评论 -
【强化学习】 Planning By Dynamic Programming
参考资料周博磊 Lecture 2: https://github.com/zhoubolei/introRL/blob/master/lecture2.pdf原创 2020-09-20 16:30:22 · 343 阅读 · 0 评论 -
【强化学习】马尔科夫决策过程
一、Markov Decision Process1.1 相关资料David Silver课件: https://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf周博磊课件: https://github.com/zhoubolei/introRL1.2 概述Markov Descision Processes(MDP) 是对强化学习环境(environment) 的一种正式描述:该环境是完全可观测的 (fully observabl原创 2020-09-17 08:28:18 · 445 阅读 · 0 评论 -
【强化学习】强化学习导论
http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html课程PPT:http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/RL%20(v6).pdfhttps://easyai.tech/ai-definition/reinforcement-learning/https://...原创 2020-04-25 19:45:11 · 580 阅读 · 0 评论
分享