
深度强化学习
学习炒菜的小芹菜
中科院自动化所在读
展开
-
《强化学习在阿里的技术演进与业务创新》读书笔记_00建模
1 背景知识介绍机器学习算法大致可分为3种:监督学习、非监督学习、强化学习。在阿⾥移动电商平台中,⼈机交互的便捷,碎⽚化使⽤的普遍性,页⾯切换的串⾏化,⽤户轨迹的可跟踪性等都要求系统能够对变幻莫测的⽤户⾏为以及瞬息万变的外部环境进⾏完整地建模。基于监督学习的方式缺少有效的探索能力,系统倾向于给消费者推送曾经发⽣过⾏为的信息单元(商品、店铺或问题答案)。而强化学习作为⼀种有效的基于⽤户与系统交互...原创 2020-02-19 17:16:17 · 312 阅读 · 0 评论 -
Spinning Up
OpenAI推出强化学习项目Spinning Up 为通用人工智能铺路我们的软件包旨在为那些对深度强化学习感兴趣,且希望学习并使用,但不清楚如何将算法转化为代码的人,提供一个中间步骤。我们试图让这成为我们这一项目的起点。”Spinning Up项目是OpenAI大型教育服务中的一部分。2019年2月,该机构将举办一个Spinning Up讲习班,另一个讲习班将与加州大学伯克利分校的Center...原创 2018-11-13 15:51:54 · 1556 阅读 · 0 评论 -
TD Temporal-Difference Learning 时序差分法(差分学习)
temporary英 ['temp(ə)rərɪ]美 [ˈtempəreri]adj. 临时的,暂时的;短暂的n. 临时工,临时雇TD算法是RL的核心算法。TD是DP和MC算法的结合。Like DP, TD methods without waiting for a final outcome (they bootstrap)。TD(0), or one-step TDAdvan...原创 2018-11-09 20:46:49 · 546 阅读 · 0 评论 -
David Silver深度强化学习第1课- intro-RL
深度强化学习入门视频列表:第一课:https://www.bilibili.com/video/av9831889/ PPT:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/intro_RL.pdf快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q插入...原创 2018-08-10 21:38:04 · 470 阅读 · 0 评论 -
David Silver深度强化学习第2课 - 马尔科夫决策过程
https://www.bilibili.com/video/av9833386http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/MDP.pdfDavid Silver深度强化学习第2课 - 马尔科夫决策过程原创 2018-10-05 12:04:46 · 452 阅读 · 0 评论 -
David Silver深度强化学习第3课 - 动态规划
https://www.bilibili.com/video/av9930653http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/DP.pdf原创 2018-10-07 10:18:29 · 499 阅读 · 0 评论 -
David Silver深度强化学习第4课-免模型预测
https://www.bilibili.com/video/av9831252http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/MC-TD.pdf原创 2018-10-14 15:47:40 · 786 阅读 · 0 评论 -
贝尔曼方程
原创 2018-10-15 20:33:43 · 666 阅读 · 0 评论 -
强化学习入门与实践系列—0.强化学习序论
1.强化学习解决什么问题强化学习(Reinforcement learning,以下简称RL),主要解决序贯决策问题,即需要连续作出决策的问题。2.RL如何解决问题首先来看监督学习。监督学习是通过从大量带有标签的数据输入中学习到特征,因而当下一个数据输入时,可以通过识别其特征映射到对应的标签,达到智能感知的目的。RL则不同,它不关心输入长什么样,只关心当前输入(状态)下采取什么动作才能完成...原创 2019-05-30 11:17:30 · 146 阅读 · 0 评论