
强化学习
关于强化学习的内容
SimonChenHere
PhD Candidate,计算机本,人工智能硕,网络安全博。
展开
-
强化学习:7基于直接策略搜索的强化学习⽅法 之 策略梯度
这是强化学习第三篇基于直接策略搜索的强化学习⽅法下的基于策略梯度。原创 2020-05-31 22:58:13 · 467 阅读 · 0 评论 -
强化学习:2 马尔科夫决策过程
总结无数的学者通过几十年的努力,提出了一套可以解决大部分强化学习问题的框架,这个框架就是马尔科夫决策过程。马尔科夫性 ----> 马尔科夫过程 —> 马尔科夫决策过程马尔科夫性描述的是每个状态的性质,但真正随机过程就是就是就是随机变量序列。若随机变量序列中的每个状态都是马尔科夫的,则称此随机过程为马尔科夫随机过程。UCL David Silver的强化学习课程的笔记,其中有思维导图https://www.meltycriss.com/2017/09/09/note-reinfor原创 2020-05-31 22:13:51 · 361 阅读 · 0 评论 -
lecture 5:Policy Optimization 1
原创 2020-05-31 16:08:00 · 174 阅读 · 0 评论 -
强化学习环境配置(Ubuntu16.04)---gym、mujoco、mujoco-py、baselines安装与测试
https://blog.youkuaiyun.com/Will_Ye/article/details/81087463原创 2020-05-31 15:16:37 · 398 阅读 · 0 评论 -
RL笔记 : Lecture 3: Model-free Prediction and Control
原创 2020-04-28 16:42:17 · 245 阅读 · 0 评论