
强化学习
文章平均质量分 70
将大炮组装
日征月迈 朝暮轮转
展开
-
David Silver UCL强化学习课程学习笔记七之Policy Gradient Methods 策略梯度
Lecture 7: Policy Gradient Methodshttps://www.davidsilver.uk/wp-content/uploads/2020/03/pg.pdfIntroductionPolicy-Based RL的优点:更好的收敛性;在高维或连续动作空间中有效;可以学习随机策略缺点:通常会收敛到局部最优,而不是全局最优;评估一项政策通常效率低下且差异很大目标函数一般而言,只要出现随机的策略的时候,一般都会比确定性策略效果要好。针对我们的目标函数,我们有如下几原创 2022-02-06 12:18:15 · 854 阅读 · 0 评论 -
David Silver UCL强化学习课程学习笔记六之Value Function Approximation 值函数估计
Lecture 6: Value Function Approximationhttps://www.davidsilver.uk/wp-content/uploads/2020/03/FA.pdfIntroduction不同种类的值函数估计 从左到右分别是状态值函数,动作值函数act-in和动作值函数act-outIncremental Methods 增量方法核心思想:利用梯度下降的方法找到一组变量使得值函数的估计值与真实值之间的均方误差最小,即J(w)最小。在lecture4中就有将一般原创 2022-02-05 22:56:33 · 629 阅读 · 0 评论 -
David Silver UCL强化学习课程学习笔记五之Model-Free Control 无模型控制
Lecture 5: Model-Free Controlhttps://www.davidsilver.uk/wp-content/uploads/2020/03/control.pdfIntroduction同策略和异策略概念,同策略说的是用于采样sample的p和要学习更新的policy一致,即learn on the job。异策略知道是学习和采样用不同的策略。On-Policy Monte-Carlo ControlMC策略迭代在估计中用q函数 ,在策略改进中用的GLIE用于解决原创 2022-02-04 11:03:13 · 488 阅读 · 0 评论 -
David Silver UCL强化学习课程学习笔记四之Model-Free Prediction 无模型预测
Lecture 4: Model-Free Prediction 无模型预测https://www.davidsilver.uk/wp-content/uploads/2020/03/MC-TD.pdfIntroduction上节课中我们讲了动态规划方法,DP既可用于预测(使用固定的policy,只更新值函数),又可用于控制(值函数和policy都更新)。但DP是需要知道转移矩阵P和奖励函数R的,这两者组成的元组就是模型model。现实生活中,大部分强化学习的情况是不知道模型的,model free原创 2022-02-03 14:31:23 · 999 阅读 · 0 评论 -
David Silver UCL强化学习课程学习笔记三之Planning by Dynamic Programming 动态规划
Lecture 3: Planning by Dynamic Programming 动态规划https://www.davidsilver.uk/wp-content/uploads/2020/03/DP.pdfIntroduction基本思想:问题的最优解如果可以由子问题的最优解推导得到,则可以先求解子问题的最优解,在构造原问题的最优解;若子问题有较多的重复出现,则可以自底向上从最终子问题向原问题逐步求解。使用条件:可分为多个相关子问题,子问题的解被重复使用动态规划的要求动态规划是一种原创 2022-02-03 09:59:29 · 415 阅读 · 0 评论 -
David Silver UCL强化学习课程学习笔记二之Markov Decision Processes 马尔可夫决策过程
Lecture 2: Markov Decision Processeshttps://www.davidsilver.uk/wp-content/uploads/2020/03/MDP.pdf原创 2022-02-01 22:19:56 · 658 阅读 · 0 评论 -
David Silver UCL强化学习课程学习笔记一之Introduction to Reinforcement Learning
Lecture 1: Introduction to ReinforcementLearninghttps://www.davidsilver.uk/teaching/AdminWebsite:http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.htmlContact me: d.silver@cs.ucl.ac.ukAbout Reinforcement LearningThe Reinforcement Learning Pro原创 2022-01-30 19:33:46 · 802 阅读 · 0 评论 -
决策梯度(Policy Gradient)
Policy人工智能学习笔记一有对强化学习模型的基本介绍记不住的可以翻回去看看。在不同的状态(State)采取的动作 Action 也就是我们所说的策略 Policy 。常用符号π来表示策略。梯度下降现在,我们大概能够猜测到了,Policy Gradient就是基于我们的策略Policy来做梯度下降从而优化我们的模型。我们会希望Agent能够尽量能够执行较好的动作。那么我们会使用执行了该动作后得到的反馈reward来判定本次的策略好坏。我们会希望Agent所做的Policy所做出来的反馈rew转载 2022-01-22 18:43:22 · 350 阅读 · 0 评论 -
马尔可夫链与马尔可夫决策过程
马尔可夫链简介马尔可夫链(Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain)为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。在马尔可夫链的每一步,系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。随机漫步就是马转载 2022-01-22 18:29:53 · 1021 阅读 · 0 评论 -
强化学习(Q-learning)
强化学习RF简介强化学习是机器学习中的一种重要类型,一个其中特工通过 执行操作并查看查询查询结果来学习如何在环境中表现行为。机器学习算法可以分为3种:有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning),如下图所示:有监督学习、无监督学习、强化学习具有不同的特点:有监督学习是有一个label(标记)的,这个label告诉算法什么样的输入对应着什么样的输出,常见的算法是分类、回归等;转载 2022-01-22 12:00:08 · 37969 阅读 · 1 评论