
动手学强化学习
文章平均质量分 96
AiCharm
新星计划第三季人工智能赛道第一名-人工智能领域实力新星获得者,阿里云社区博客专家,华为云享专家
展开
-
动手强化学习(十):Actor-Critic 算法
在之前的内容中,我们学习了基于值函数的方法(DQN)和基于策略的方法(REINFORCE),其中基于值函数的方法只学习一个价值函数,而基于策略的方法只学习一个策略函数。那么一个很自然的问题,有没有什么方法既学习价值函数,又学习策略函数呢?答案就是 Actor-Critic。Actor-Critic 是一系列算法,目前前沿的很多高效算法都属于 Actor-Critic 算法,今天我...原创 2022-06-11 09:00:00 · 3211 阅读 · 2 评论 -
动手强化学习(七):DQN 改进算法——Dueling DQN
之前介绍的 Q-learning、DQN 及 DQN 改进算法都是基于价值(value-based)的方法,其中 Q-learning 是处理有限状态的算法,而 DQN 可以用来解决连续状态的问题。在强化学习中,除了基于值函数的方法,还有一支非常经典的方法,那就是基于策略(policy-based)的方法。对比两者,基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学.........原创 2022-06-13 09:00:00 · 4405 阅读 · 2 评论 -
动手强化学习(八):DQN 改进算法——Dueling DQN
动手强化学习(七):DQN 改进算法——Dueling DQN1. 简介2. Dueling DQN3. Dueling DQN 代码实践4. 对 Q 值过高估计的定量分析总结文章转于 伯禹学习平台-动手学强化学习 (强推)本文所有代码均可在jupyter notebook运行与君共勉,一起学习。1. 简介 DQN 算法敲开了深度强化学习的大门,但是作为先驱性的工作,其本身存在着一些问题以及一些可以改进的地方。于是,在 DQN 之后,学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算原创 2022-06-05 09:00:00 · 4796 阅读 · 0 评论 -
动手强化学习(七):DQN 改进算法——Double DQN
动手强化学习(七):DQN 改进算法——Double DQN、Dueling DQN1. 简介2. Double DQN3. Double DQN代码实战文章转于 伯禹学习平台-动手学强化学习 (强推)本文所有代码均可在jupyter notebook运行与君共勉,一起学习。1. 简介 DQN 算法敲开了深度强化学习的大门,但是作为先驱性的工作,其本身存在着一些问题以及一些可以改进的地方。于是,在 DQN 之后,学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法:Double DQ原创 2022-05-27 09:00:00 · 2909 阅读 · 0 评论 -
动手强化学习(六):DQN 算法
动手强化学习(五):时序差分算法 (Temporal Difference)1. 简介2. CartPole 环境3. DQN1. 简介 在前面讲解讲解的 Q-learning 算法中,我们以矩阵的方式建立了一张存储每个状态下所有动作 QQQ 值的表格。表格中的每一个动作价值 Q(s,a)Q(s, a)Q(s,a) 表示在状态 sss 下选择动作 aaa 然后继续遵循某一策略预期能 够得到的期望回报。然而,这种用表格存储动作价值的做法只在环境的状态和动作都是离散的,并且空间都比较小的情况下适用,我们之原创 2022-05-18 09:00:00 · 5601 阅读 · 6 评论 -
强化学习基础篇(五):Dyna-Q 算法
强化学习基础篇(五):Dyna-Q 算法 (Dynamic Programming)1. 简介2. Dyna-Q3. Dyna-Q 代码实践4. 小结文章转于 伯禹学习平台-动手学强化学习 (强推)本文所有代码均可在jupyter notebook运行与君共勉,一起学习。1. 简介 在强化学习中,“模型”通常指与智能体交互的环境模型,即对环境的状态转移概率和奖励函数进行建模。根据是否具有环境模型,强化学习算法分为两种:基于模型的强化学习(model-based reinforcement lea原创 2022-05-16 09:00:00 · 2875 阅读 · 1 评论 -
动手学强化学习(四):时序差分算法 (Temporal Difference)
强化学习基础篇(四):时序差分算法 (Temporal Difference)1. 简介2. 时序差分方法3. Sarsa 算法4. 多步 Sarsa 算法5. Q-learning 算法在线策略算法与离线策略算法6. 总结文章转于 伯禹学习平台-动手学强化学习 (强推)与君共勉,一起学习。1. 简介 动态规划算法要求马尔可夫决策过程是已知的,即要求与智能体交互的环境是完全已知的(例如迷宫或者给定规则的网格世界)。在此条件下,智能体其实并不需要和环境真正交互来采样数据,直接用动态规划算法就可以解转载 2022-05-06 09:00:00 · 7347 阅读 · 8 评论 -
动手学强化学习(三):动态规划算法 (Dynamic Programming)
强化学习基础篇(三):动态规划算法 (Dynamic Programming)1. 简介2. 马尔可夫决策过程2.1 随机过程2.2 马尔可夫性质1. 简介 动态规划(dynamic programming)是程序设计算法中非常重要的内容,能够高效解决一些经典问题,例如背包问题和最短路径规划。动态规划的基本思想是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到目标问题的解。动态规划会保存已解决的子问题的答案,在求解目标问题的过程中,需要这些子问题答案时就可以直接利用,避免重复计算原创 2022-05-01 09:00:00 · 3931 阅读 · 4 评论 -
动手学强化学习(二):马尔可夫决策过程 (Markov decision process,MDP)
强化学习基础篇(二):马尔可夫决策过程 (Markov decision process,MDP)1. 简介2. 马尔可夫决策过程2.1 随机过程2.2 马尔可夫性质2.3 马尔可夫过程3. 马尔可夫奖励过程3.1 回报3.2 价值函数4. 马尔可夫决策过程4.1 策略4.2 状态价值函数4.3 动作价值函数4.4 贝尔曼期望方程5. 蒙特卡洛方法6.占用度量7.最优策略7.1 贝尔曼最优方程1. 简介 马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念。要原创 2022-04-24 09:00:00 · 1943 阅读 · 1 评论 -
动手学强化学习(一):多臂老虎机 Multi-armed Bandit
强化学习基础篇(一):多臂老虎机 Multi-armed Bandit1. 简介2. 问题介绍2.1 问题定义2.2 形式化表述2.3 累积懊悔2.4 估计期望奖励1. 简介 强化学习关注智能体和环境交互过程中的学习,这是一种试错型学习(trial-and-error learning)范式。在正式学习强化学习之前,我们需要先了解多臂老虎机问题,它可以被看作简化版的强化学习问题。与强化学习不同,多臂老虎机不存在状态信息,只有动作和奖励,算是最简单的“和环境交互中的学习”的一种形式。多臂老虎机中的探索与原创 2022-04-21 09:00:00 · 12027 阅读 · 1 评论