
RL An Introduction 2nd读书笔记
sutton力作第二版读书笔记
EdenGabriel
no why,just do.
展开
-
11. 基于近似的离线策略方法--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录基于近似的离线策略方法前言1.半梯度方法2.off-policy发散的例子2.1 MDP中取出两个状态baird counterexample贝尔德反例Tsitsiklis and Van Roy’s Counterexample3. 死亡三角/死亡三元组4. 线性值函数几何学5. 贝尔曼误差中的梯度下降6.贝尔曼误差的不可学习性7.梯度TD方法8. Emphatic-TD方法9. 减小方差总结基于近似的离线策略方法前言on-policy和off-policy方法是处理GPI中探索和利用矛盾的原创 2020-08-24 11:44:00 · 499 阅读 · 0 评论 -
13. 策略梯度方法--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录策略梯度方法前言1. 策略近似及其优势2.策略梯度理论3. REINFORCE:MC策略梯度4. 有baseline的REINFORCE算法5. Actor-Critic方法6. 连续问题的策略梯度7. 连续动作空间的策略参数化总结策略梯度方法前言之前我们所讲的方法都是基于值函数的,基本的流程就是先求出值函数的值,然后再根据值函数值的大小选择一个动作。这类方法叫做action-value methods。我们的目的是找到一个策略,事实上没有必要求解值函数,可以直接参数化一个策略,然后通过更新参原创 2020-08-24 11:44:38 · 658 阅读 · 0 评论 -
12. 资格迹--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录资格迹前言1. λ\lambdaλ回报TD(λ\lambdaλ)3. n-step截断λ\lambdaλ回报算法4. 重新更新:在线λ\lambdaλ回报算法5. 真正的在线TD(λ\lambdaλ)6. MC学习中的dutch trace7. Sarsa(λ\lambdaλ)8. 变量λ和γ9. 带有控制变量的off-policy traces10. Watkins's Q(λ\lambdaλ) to Tree-Backup(λ\lambdaλ)11. 带有traces的稳定的off-policy原创 2020-08-24 11:44:22 · 872 阅读 · 0 评论 -
10. 基于近似的on-policy控制方法--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录基于近似的on-policy控制方法前言1. episodic半梯度控制2.半梯度n-step sarsa3.平均奖励:针对连续任务的一种新的回报形式4.弃用折扣设置deprecating the discounting setting5. 微分半梯度n-step sarsa算法总结基于近似的on-policy控制方法前言本章将讲解控制问题,也就是如何找到一个优化策略。结合上一节参数化的方法,动作值函数的拟合函数q^(s,a,w)≈q∗(s,a)\hat{q}(s,a,\mathbf{w})\原创 2020-08-24 11:43:38 · 485 阅读 · 0 评论 -
9. 基于近似的在线策略预测方法--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录基于近似的在线策略预测方法前言1.值函数近似2.预测目标VE‾\overline {VE}VE3.随机梯度和半梯度方法stochastic-gradient and semi-gradient4.线性方法5.线性方法的特征构造5.1 多项式方法5.2 傅里叶基5.3 coarse coding粗糙编码特征5.4 tile coding堆编码/瓦片编码5.5 径向基函数radial basis functions6. 手动选择步长step-size参数7. 非线性函数近似:人工神经网络8. 最小二乘T原创 2020-08-23 17:48:19 · 729 阅读 · 0 评论 -
1~8.PART one总结--阅读笔记【Reinforcement Learning An Introduction 2nd】
本书主要分为三大部分,分别是基于表格的方法;近似策略方法;扩展部分。第一部分属于rl基础内容,基本涵盖了基于值函数方法的核心思想。要熟悉并善于分析不同方法之间的区别和联系,构建起整个知识体系框架。之前我们所讲的方法都有很多共同点:试图估计值函数;通过对实际的或仿真的经验进行备份操作来更新值函数;都遵循GPI框架。尽管大体框架都相同,但彼此之间还是有区别的,重要的区分维度就是更新的深度和宽度:横轴表示更新宽度,也就是采样更新和期望更新。纵轴表示更新深度,也就是自举的程度。上图中的三个角分别代原创 2020-08-23 17:47:44 · 212 阅读 · 0 评论 -
8.基于表格方法的规划和学习planning and learning--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录基于表格方法的规划和学习planning and learning with tabular methods前言模型和规划Dyna:综合规划、决策和学习的框架当模型是错的优先遍历/扫描 prioritized sweeping期望更新和采样更新轨迹采样实时动态规划在决策时规划启发式搜索rollout算法蒙特卡洛树搜索总结基于表格方法的规划和学习planning and learning with tabular methods内容简要梳理:本章主要讲解了如何结合规划、学习和决策,实际上该书中原创 2020-08-23 17:47:26 · 828 阅读 · 0 评论 -
7.n步自举n-step bootstraping--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录n步自举n-step bootstraping前言n-step TD预测n-step Sarsan-step离线策略学习*带控制变量的per-decision方法n-step 树备份算法(无重要性采样的off-policy)统一的算法:n-step Q(sigma)总结n步自举n-step bootstraping内容简要梳理:本章提出了n步自举的方法,按照之前的套路,分别从预测和控制两个方面进行分析,首先分析了n-step TD预测的更新目标,接着提出了n-step Sarsa算法(on-原创 2020-08-23 17:47:08 · 729 阅读 · 0 评论 -
6.时序差分学习Temporal-Difference Learning--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录时序差分学习Temporal-Difference Learning前言TD预测/评估TD预测方法的优势TD(0)的最优性Sarsa:在线策略TD控制Q-learning:off-policy TD控制期望sara算法最大化偏差Maximization Bias 和 Double LearningGame、afterstate和其他特例总结时序差分学习Temporal-Difference Learning内容简要梳理:本章主要讲解了又一种RL方法,基于时序差分学习的方法,依照GPI模式,首原创 2020-08-23 17:46:48 · 635 阅读 · 0 评论 -
5.蒙特卡洛方法--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录蒙特卡洛方法Monte Carlo method前言蒙特卡洛预测动作价值的蒙特卡洛估计蒙特卡洛控制无exploring starts的MC控制基于重要性采样的离线策略预测增量式实现off-policy的MC控制*discounting-aware importance sample*per-decision importance sample总结蒙特卡洛方法Monte Carlo method内容梳理:本章主要介绍了RL中的另一种解决问题的方法MC方法,在阅读本章时要搞清楚MC和DP的区别以原创 2020-08-23 17:46:18 · 1407 阅读 · 0 评论 -
4.动态规划--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录动态规划前言策略评估/预测策略提升策略迭代值迭代异步动态规划广义策略迭代动态规划算法的效率问题总结内容梳理:本文主要讲解动态规划方法,首先讲解了策略评估用以计算值函数,然后提到了策略提升的方法,接着又提出了策略迭代的方法,针对策略迭代每次都要进行策略评估,且每次策略评估都要对状态集合中的所有状态进行更新,由此导致的训练时间成本大,故此提出了值迭代的方法。为了加快DP解决问题的速度,提出了ADP,最后提出了广义策略迭代的方法,并就DP算法的效率问题展开叙述。动态规划前言DP这个术语可以用原创 2020-08-23 17:45:53 · 731 阅读 · 0 评论 -
3.有限马尔可夫决策过程--阅读笔记【Reinforcement Learning An Introduction 2nd】
文章目录有限马尔科夫决策过程Finite Markov Decision Processes前言智能体-环境接口agent和environment之间的界限目标和回报回报表示+episodic task 和 continuing taskepisodic taskcontinuing task策略和值函数贝尔曼方程状态值函数贝尔曼方程动作值函数贝尔曼方程最优策略和最优值函数贝尔曼最优方程总结有限马尔科夫决策过程Finite Markov Decision Processes内容简要梳理:本章介绍fi原创 2020-08-23 17:45:33 · 843 阅读 · 0 评论 -
2.多臂赌博机--阅读笔记【Reinforcement Learning An Introduction 2nd】
多臂赌博机文章目录多臂赌博机前言k臂赌博机任务描述行为值函数action-value function增量式实现方法非平稳问题nonstationary problem乐观初值方法 optimistic initial values上限置信区间动作选择Upper-Confidence-Bound(UCB)梯度赌博机算法关联/联想搜索(情景式赌博)associative research总结10臂赌博机实验1. 小提琴图-每个动作的动作估计值分布2. 探索率对算法性能的影响3. optimistic ini原创 2020-08-23 17:45:14 · 990 阅读 · 1 评论 -
1.简介--阅读笔记【Reinforcement Learning An Introduction 2nd】
简介强化学习的概念与重要特征:1.强化学习是一种学习如何将状态映射到动作,以获得最大奖励的学习机制。2.强化学习的重要特征:强化学习过程中,其动作不仅直接影响到当前奖励,还可能会影响下一个状态,从而通过下一个状态,影响随后的奖励。因此,试错法和延迟奖励(trial-and-error search and delayed reward ) 是强化学习最重要的两个特征。强化学习的另外一个重要特征如下所示:这段话就是说强化学习可以用于研究对象整体,也可以用于研究对象的一部分(比如机器人整体/机器人原创 2020-08-23 17:44:25 · 349 阅读 · 0 评论