
强化学习
文章平均质量分 60
强化学习相关的文章。
OneLonelyTree
毕业于北京航空航天大学,硕士学历,本科就读自动化专业,硕士就读控制科学与工程专业,主要涉及软件开发、自动控制、无人机、强化学习等方向,学业不精,多多指教。
展开
-
[归纳]强化学习导论 - 第十四章:心理学
文章目录1. 本章内容概要2. 预测和控制3. 经典条件反射4. 工具条件反射5. 延迟的强化6. 认知地图7. 习惯和目标引导的行为8. 总结参考文献1. 本章内容概要在之前的章节中,我们研究了仅仅基于计算的各种算法思想,这一章,我们则从另一个角度看待这些算法,也就是心理学的角度以及其对动物学习方式的研究。本章的目标是:首先,2. 预测和控制3. 经典条件反射4. 工具条件反射5. ...原创 2019-08-06 21:22:22 · 3635 阅读 · 0 评论 -
[归纳]强化学习导论 - 第十三章:策略梯度方法
文章目录1.本章内容概要2. 策略拟合器与它的优势3. 策略梯度理论4. REINFORCE: Monte Carlo策略梯度5. 带有baseline的REINFORCE6. Actor-Critic方法7. 连续问题的策略梯度8. 连续动作的策略参数化9. 总结参考文献1.本章内容概要这一章我们介绍些新的东西。到目前为止,几乎我们介绍的所有方法都是基于值函数的,即首先通过交互学习到动作值...翻译 2019-07-29 23:25:54 · 1797 阅读 · 0 评论 -
[归纳]强化学习导论 - 第十二章:资格迹
文章目录1.本章内容概要参考文献1.本章内容概要参考文献原创 2019-07-27 14:23:16 · 3411 阅读 · 0 评论 -
[归纳]强化学习导论 - 第十一章:基于拟合器的off-policy控制
文章目录本章内容概要Semi-gradient MethodsExamples of Off-policy DivergenceThe Deadly TriadLinear Value-function GeometryGradient Descent in the Bellman ErrorThe Bellman Error is Not LearnableGradient-TD Methods...原创 2019-06-17 20:48:34 · 668 阅读 · 1 评论 -
[归纳]强化学习导论 - 第十章:基于拟合器的on-policy控制
文章目录本章内容概要Episodic Semi-gradient ControlSemi-gradient n-step SarsaAverage Reward: A New Problem Setting for Continuing TasksDeprecating the Discounted SettingDifferential Semi-gradient n-step SarsaSum...原创 2019-06-10 22:16:41 · 580 阅读 · 0 评论 -
[归纳]强化学习导论 - 第九章:基于拟合器的on-policy预测
文章目录本章内容概要Value-function ApproximationThe Prediction Objective (VE)Stochastic-gradient and Semi-gradient MethodsLinear MethodsFeature Construction for Linear MethodsPolynomialsFourier BasisCoarse Codi...原创 2019-06-09 14:49:36 · 2076 阅读 · 0 评论 -
[归纳]强化学习导论 - 本书第一Part总结
文章目录Summary of Part I: Dimensions参考文献Summary of Part I: Dimensions这一章总结了本书Part I的所有内容,RL并不是一些孤立方法的集合,RL实际上是具有一致的一些想法的集合,每个想法都能看作方法变化的一个dimension,这些dimensions可以组合成一个很大的方法空间。通过dimensions的层面探索问题空间,我们希望...原创 2019-05-25 19:47:36 · 387 阅读 · 0 评论 -
[归纳]强化学习导论 - 第八章:融合规划和学习的统一框架
文章目录本章内容概要Models and PlanningDyna: Integrated Planning, Acting, and LearningWhen the Model Is WrongPrioritized SweepingExpected vs. Sample UpdatesTrajectory SamplingReal-time Dynamic ProgrammingPlanni...原创 2019-05-25 19:38:05 · 1629 阅读 · 0 评论 -
[归纳]强化学习导论 - 第七章:n-step自举(Bootstrapping)
文章目录本章内容概要n-step TD Predictionn-step Sarsan-step Off-policy Learning*Per-decision Methods with Control VariatesOff-policy Learning Without Importance Sampling: The n-step Tree Backup Algorithm*A Unify...原创 2019-05-16 13:03:46 · 4052 阅读 · 2 评论 -
[归纳]强化学习导论 - 第六章:时间差分学习
文章目录本章内容概要TD PredictionAdvantages of TD Prediction MethodsOptimality of TD(0)Sarsa: On-policy TD ControlQ-learning: Off-policy TD ControlExpected SarsaMaximization Bias and Double Learning参考文献本章内容概要...原创 2019-05-03 22:04:31 · 1345 阅读 · 0 评论 -
[归纳]强化学习导论 - 第五章:蒙特卡洛方法
文章目录本章内容概要Monte Carlo PredictionMonte Carlo Estimation of Action ValuesMonte Carlo ControlMonte Carlo Control without Exploring StartsOff-policy Prediction via Importance SamplingIncremental Implement...原创 2019-04-08 20:43:04 · 1637 阅读 · 0 评论 -
[归纳]强化学习导论 - 第四章:动态规划
文章目录本章内容概要Policy Evaluation (Prediction)Policy ImprovementPolicy IterationValue IterationAsynchronous Dynamic ProgrammingGeneralized Policy IterationEfficiency of Dynamic ProgrammingSummary参考文献本章内容概要...原创 2019-03-28 13:24:29 · 991 阅读 · 3 评论 -
[归纳]强化学习导论 - 第三章:有限马尔可夫过程
文章目录SummaryThe Agent–Environment InterfaceGoals and RewardsReturns and EpisodesUnified Notation for Episodic and Continuing TasksPolicies and Value FunctionsOptimal Policies and Optimal Value Function...原创 2019-03-23 15:46:50 · 1443 阅读 · 0 评论 -
[归纳]强化学习导论 - 第一章:介绍
目录开启本系列目的附:致歉开启本系列目的最近开始阅读Sutton教授的《Reinforcement learning: An Introduction(second edition)》一书,希望在记录自己学习心得的同时,也能和大家分享自己思考的一些内容,同时帮助英文不好的同学对本书有一个基本的了解。其实说来惭愧,虽然这一年多也接触了不少强化学习的知识,甚至学习了很多比较前沿的算法,像DQN,...原创 2019-03-16 22:18:20 · 1491 阅读 · 0 评论