
强化学习
文章平均质量分 82
dadadaplz
这个作者很懒,什么都没留下…
展开
-
A3C代码详解
莫烦大神的A3C连续控制代码详解"""Asynchronous Advantage Actor Critic (A3C) with continuous action space, Reinforcement Learning.The Pendulum example.View more on my tutorial page: https://morvanzhou.github.io/原创 2017-05-19 17:30:25 · 9465 阅读 · 0 评论 -
On-policy Sarsa算法与Off-policy Q learning对比
强化学习中Sarsa算法(on policy)与Q learning(off policy)的详细对比。原创 2017-05-19 09:40:20 · 14679 阅读 · 6 评论 -
策略迭代与值迭代的区别
策略迭代与值迭代都属于强化学习里面策略求解中的动态规划方法。其区别是什么呢? 首先看一张图片: 首先看策略迭代: 1.initialization 初始化所有状态的v(s)以及π(s)(初始化为随机策略) 2.poicy evaluation 用当前的v(s)对当前策略进行评估,计算出每一个状态的v(s),直到v(s)收敛,才算训练好了这个状态价值函数V(s) 3.原创 2017-08-31 20:35:46 · 31036 阅读 · 7 评论 -
Policy Gradient Methods in Reinforcement Learning
强化学习中的策略梯度方法详解。原创 2017-05-18 20:48:40 · 3477 阅读 · 0 评论 -
Why does policy gradiet method has high variance?
策略梯度方法 策略梯度方法中,目标函数是使得整个episode得到的reward的均值最大: maximizeθEπθ[∑t=0T−1γtrt]{\rm maximize}_{\theta}\; \mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T-1}\gamma^t r_t\right] 由于: ∇θE[f(x)]=∇θ∫pθ(x)f(x)dx=∫pθ原创 2017-09-12 21:51:11 · 564 阅读 · 0 评论