
强化学习
Vic_Hao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习算法——TRPO
TRPO(Trust Region Policy Optimization), 置信域策略优化,是Policy Search Methods中的一类随机策略搜索算法,它正面解决了梯度更新步长选择的问题,给出了一种单调的策略改善方法。回顾策略梯度的方法,在策略梯度中我们的更新满足如下关系:θnew=θold+α▽θJ\theta_{new} = \theta_{old} + \alpha \tr...原创 2019-03-08 14:24:10 · 1303 阅读 · 0 评论 -
基于policy gradient的强化学习算法
基于policy gradient的强化学习算法相比于value function方法的优缺点:优点:直接策略搜索是对策略进行参数化表示,与值函数相比,策略化参数的方法更简单,更容易收敛。值函数的放法无法解决状态空间过大或者不连续的情形直接策略的方法可以采取随机策略,随机策略可以将探索直接集成到算法当中缺点:策略搜索的方法更容易收敛局部极值点在评估单个策略时,评估的并不好,方差...转载 2019-03-06 22:05:21 · 561 阅读 · 0 评论 -
强化学习算法——分类
原创 2019-03-04 20:46:05 · 848 阅读 · 0 评论 -
强化学习算法—DQN
Q-Learning从Q-Learning到DQN维度灾难在上面的简单分析中,我们使用表格来表示Q(s,a),但是这个在现实的很多问题上是几乎不可行的,因为状态实在是太多。使用表格的方式根本存不下。举Atari为例子。计算机玩Atari游戏的要求是输入原始图像数据,也就是210x160像素的图片,然后输出几个按键动作。总之就是和人类的要求一样,纯视觉输入,然后让计算机...转载 2019-03-15 01:17:49 · 2295 阅读 · 0 评论 -
Learn from Demonstration
Reference:http://blog.exbot.net/archives/249https://blog.youkuaiyun.com/weixin_43822994/article/details/85566552https://zhuanlan.zhihu.com/p/45845001https://blog.youkuaiyun.com/c2a2o2/article/details/77336551...原创 2019-03-18 18:43:07 · 944 阅读 · 0 评论 -
RL——Policy Gradient类方法
Policy Gradient和Q-learning可以说是model-free RL的两大阵营。前者是off-line, on-policy的方法,后者是on-line, off-policy的方法。前者是策略迭代,关心的是策略网络的参数;后者是值迭代,关心的是值网络的输出。随着RL的不断发展,这两类方法在不断交错领跑的过程中交汇融合。本文重点介绍Policy Gradient的方法,从其“初...转载 2019-06-04 23:57:20 · 602 阅读 · 0 评论 -
Reinforment Learning : An Introduction 笔记 chapter 9 On-policy Prediction with Approximation
The novelty of this chapter is that the approximate value function is represented not as a table but as a parameterized function form with weight vector w∈Rd\mathbf{w}\in \mathbb{R}^{d}w∈RdWhat funct...原创 2019-03-03 00:44:22 · 299 阅读 · 0 评论 -
强化学习算法——Actor-Critic Algorithm (A3C)
Reference:http://www.cnblogs.com/wangxiaocvpr/p/8110120.html原创 2019-03-04 22:04:51 · 539 阅读 · 0 评论 -
强化学习算法——Probabilistic Inference for Learning Control (PILCO)
Reference:https://blog.youkuaiyun.com/philthinker/article/details/79749038原创 2019-03-04 22:03:26 · 1711 阅读 · 0 评论 -
贝尔曼方程
贝尔曼方程在强化学习中无处不在,对于理解强化学习算法的工作原理是非常必要的。贝尔曼方程让我们可以开始解决MDPs问题。原创 2018-06-03 21:11:14 · 15481 阅读 · 0 评论 -
Multi-armed Bandits
The most important feather distinguishing reinforcement learning from other types of learning is that it uses training information that evaluates the actions taken rather than instructs by giving corr...原创 2018-05-28 21:53:32 · 360 阅读 · 0 评论 -
Finite Markov Decision Processes
MDPs are a classical formalization of sequential decision making. MDPs are a mathmatically idealized form of the reinforcement learning problem for which precise theoretical statements can be made. As...原创 2018-06-01 10:51:58 · 370 阅读 · 0 评论 -
Planning by Dynamic Programming
Dynamic Programming(DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a MDP. The key idea of DP, and of reinforcement l...原创 2018-06-09 16:42:10 · 292 阅读 · 0 评论 -
Monte Carlo Methods
Monte Carlo methods require only experience—sample sequences of states, actions, and rewards from actual or simulated interaction with an environment. And Monte Carlo methods require no prior knowledg...原创 2018-06-29 22:38:31 · 464 阅读 · 0 评论 -
On-policy and Off-policy
转载自知乎:https://www.zhihu.com/question/56561878/answer/149892732理想情况下,强化学习应该直奔最优策略而去–确定性的“状态-最优行为选择”。我们称之为target policy。 这是on-policy的目标,但在实施时,会遭遇探索-利用的矛盾:光利用目前已知的最优选择,可能学不到最优解,收敛到局部最优;而加入探索又降低了学习效率。ε...转载 2018-07-01 23:29:04 · 1109 阅读 · 1 评论 -
关系性深度强化学习
深度强化学习的缺陷: 采样效率低以及往往不能泛化至任务中看似微小的变化 。 这些缺陷表明,具有较强能力的深度强化学习模型往往对其所训练的大量数据过度拟合,因此无法理解它们试图解决的问题的抽象性、可解释性和可概括性。关系性深度强化学习 这种新型强化学习可以通过结构化感知和关系推理提高常规方法的效率、泛化能力和可解释性。 RRL 背后的核心思想即通过使用一阶(或关系)语言表示状态、动作和策...原创 2018-07-24 11:48:16 · 1690 阅读 · 0 评论 -
区分Model-free和Model-based方法
强化学习方法分为Model-free和Model-based方法,那么这两种方法的区别在哪: 首先我们定义强化学习中的马尔可夫决策过程MDP,用四元组表示<S,A,R,T><S,A,R,T>:我们的目标是:找到一个策略π能够最大化我们的对未来奖励的期望E(∑nt=0γtRt)E(∑nt=0γtRt)E(∑nt=0γtRt),Rt为t时刻的奖励,γ为折扣因子,代表距离现...转载 2018-09-04 10:29:01 · 2202 阅读 · 0 评论 -
Introduction to Reinforcement Learning
Learning from interaction is a foundational idea underlying nearly all theories of learning and intelligence.The approach we explore, called reinforcement learning, is much more focused on goal-direct...原创 2018-05-26 12:03:18 · 916 阅读 · 0 评论