
Reinforcement Learning
nana-li
越努力,越幸运!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[强化学习] 时序差分学习
写在前面本文主要为学习sutton书中《时序差分学习》章节整理而来。一、引言1、蒙特卡洛方法回顾(1)预测问题蒙特卡洛的目标是根据策略π\piπ采样轨迹序列vπ(s)v_\pi(s)vπ(s):S1,A1,R2,...,Sk∼πS_1,A_1,R_2,...,S_k \sim \piS1,A1,R2,...,Sk∼π。价值函数:vπ(s)=E(Gt∣St=s)v_\pi(s) = \mathcal{E}(G_t|S_t=s)vπ(s)=E(Gt∣St=s)累积奖励GtG_tGt原创 2020-05-11 12:33:36 · 1671 阅读 · 0 评论 -
[强化学习] 蒙特卡洛方法
写在前面强化学习系列方法主要学习Sutton的书,本文主要讲使用蒙特卡洛做预测和控制涉及到的问题。一、动态规划的局限动态规划中状态价值更新函数为:V(k+1)(S)=∑A∈Aπ(A∣S)(RSA+γ∑S′∈SPSS′AV(k)(S′))V^{(k+1)}(S) = \sum_{A \in \mathcal{A}} \pi(A|S) (R_S^A + \gamma \sum_{S' \in...原创 2020-03-28 10:42:43 · 3308 阅读 · 2 评论 -
[强化学习] 有限马尔科夫决策过程
<h3>写在前面</h3>强化学习系列博客主要学习sutton的书,有些内容来自Google DeepMind的David Silver的PPT,再此声明。<h3>一、马尔可夫过程</h3><center><img width="70%" src="https://img-blog.csdnimg.cn/20200313214937899.png"/></center>如上图所示,在强化学习的过程中,Agent与Environment一直交互。在时刻$t$,Agent接收来自环境的状态$S_原创 2020-03-14 14:05:41 · 1307 阅读 · 0 评论 -
[强化学习] 概念、举例、分类
<h2> 写在前面</h2>本文主要是学习sutton的书--强化学习绪论部分的整理,这里为了更好地理解,扩展了一些书上的内容。例子来源于网上,后续介绍的时候我会加上来源;还有部分PPT内容参考台大李宏毅老师的PPT以及Google DeepMind的David Silver的PPT,后续会注明!~~<h2>一、强化学习概念</h2><h3>1、基本概念</h3>在进入强化学习之前,这里先讲一个例子:> 小时候刚上学的时候,第一天老师布置了作业,我很认真地完成了它,然后得到了一朵小红花;第原创 2020-03-03 20:12:30 · 4291 阅读 · 1 评论 -
[强化学习] off-policy和on-policy、Q-learning和Sarsa的区别、Sarsa-lambda、Q-lambda
本文主要包括:Q-learning基础、根据Q-learning思想分析一个代码。原创 2019-05-11 16:11:11 · 7603 阅读 · 0 评论