
强化学习
文章平均质量分 86
Sophia$
算法
展开
-
莫烦强化学习视频笔记:第六节 6.6 Asynchronous Advantage Actor-Critic (A3C)
1. 要点一句话概括 A3C:Google DeepMind 提出的一种解决Actor-Critic不收敛问题的算法. 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高.因为这节内容是基于Actor-Critic, 所以还不了解Actor-Critic的朋友们, 强烈推荐你在这个短视频和这个 Python 教...转载 2021-11-26 16:07:12 · 754 阅读 · 0 评论 -
莫烦强化学习视频笔记:第六节 6.5 什么是 Asynchronous Advantage Actor-Critic (A3C)
目录1. 平行宇宙2. 平行训练3. 多核训练今天我们会来说说强化学习中的一种有效利用计算资源, 并且能提升训练效用的算法, Asynchronous Advantage Actor-Critic, 简称 A3C.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 平行宇宙我们先说说没什么关系的,大家知道平行宇宙这回事. 想像现在有三个平行宇宙, 那么就意味着这3个平行宇宙上存在3个你, 而你可能在电脑前呆了很久, 对, 说的就是你! 然...转载 2021-11-25 17:14:21 · 534 阅读 · 0 评论 -
莫烦强化学习视频笔记:第六节 6.4 Deep Deterministic Policy Gradient (DDPG)
目录1. 要点2. 算法3. 代码3.1 主结构3.2 Actor Critic3.3 记忆库 Memory3.4 每回合算法3.5 简化版代码(录完视频后发现了小错误, 重写了代码)1. 要点一句话概括 DDPG:Google DeepMind 提出的一种使用Actor Critic结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测.DDPG结合了之前获得成功的DQN结构,...转载 2021-11-22 18:23:46 · 606 阅读 · 0 评论 -
莫烦强化学习视频笔记:第六节 6.3 什么是DDPG
目录1. 拆分细讲2. Deep 和 DQN3. Deterministic Policy Gradient4. DDPG 神经网络今天我们会来说说强化学习中的一种actor critic 的提升方式 Deep Deterministic Policy Gradient (DDPG), DDPG 最大的优势就是能够在连续动作上更有效地学习.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 拆分细讲它吸收了Actor-Critic...转载 2021-11-22 11:34:30 · 491 阅读 · 0 评论 -
莫烦强化学习视频笔记:第六节 6.2 Actor Critic
目录1. 要点2. 算法3. 代码3.1 主结构3.2 两者学习方式3.3 每回合算法¶1. 要点一句话概括 Actor Critic 方法:结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法.Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,Actor根据Critic的评分修改选行为的概率.Actor Critic 方法的优势: 可...转载 2021-11-22 11:21:01 · 320 阅读 · 0 评论 -
莫烦强化学习视频笔记:第六节 6.1 什么是 Actor Critic
目录1. 为什么要有 Actor 和 Critic2. Actor 和 Critic3. 增加单步更新属性4. 改进版 Deep Deterministic Policy Gradient (DDPG)今天我们会来说说强化学习中的一种结合体 Actor Critic (演员评判家), 它合并了 以值为基础 (比如 Q learning) 和 以动作概率为基础 (比如 Policy Gradients) 两类强化学习算法.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到...转载 2021-11-15 17:18:34 · 308 阅读 · 0 评论 -
莫烦强化学习视频笔记:第五节 5.2 Policy Gradients 算法更新和思维决策
目录1. 要点2. 算法流程3. 算法代码形式3.1 算法更新3.2 思维决策3.2.1 初始化3.2.2 建立 Policy 神经网络3.2.3 选行为3.2.4 存储回合3.2.5 学习1. 要点Policy gradient 是 RL 中另外一个大家族, 他不像 Value-based 方法 (Q learning, Sarsa), 但他也要接受环境信息 (observation), 不同的是他要输出不是 action 的 value,...转载 2021-11-15 16:47:12 · 474 阅读 · 0 评论 -
莫烦强化学习视频笔记:第五节 5.1 什么是策略梯度(Policy Gradients)
目录1. 和以往的强化学习方法不同2. 更新不同之处3. 具体更新步骤欢迎观看有趣的机器学习系列视频, 今天我们会来说说强化学习家族中另一类型算法, 叫做 Policy Gradients.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 和以往的强化学习方法不同强化学习是一个通过奖惩来学习正确行为的机制. 家族中有很多种不一样的成员, 有学习奖惩值, 根据自己认为的高价值选行为, 比如Q learning,Deep Q Netwo...转载 2021-11-15 13:37:41 · 218 阅读 · 0 评论 -
莫烦强化学习视频笔记:第四节 4.6 Dueling DQN
要点本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 Dueling DQN 和 DQN 在代码上不同的地方. 所以还没了解 DQN 的同学们, 有关于 DQN 的知识, 请从这个视频和这个Python教程开始学习.只要稍稍修改 DQN 中神经网络的结构, 就能大幅提升学习效果, 加速收敛. 这种新方法叫做 Dueling DQN. 用一句话来概括 Dueling DQN 就是. 它将每个动作的 Q 拆分成了 stat...转载 2021-11-15 10:50:26 · 310 阅读 · 0 评论 -
莫烦强化学习视频笔记:第四节 4.5 Prioritized Experience Replay
1. 要点本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 DQN with Prioritized Replay 和 DQN 在代码上不同的地方. 所以还没了解 DQN 的同学们, 有关于 DQN 的知识, 请从这个教程开始学习.这一次还是使用 MountainCar 来进行实验, 因为这次我们不需要重度改变他的 reward 了. 所以只要是没有拿到小旗子, reward=-1, 拿到小旗子时, 我们定义它获得了 +1...转载 2021-11-11 16:25:28 · 387 阅读 · 0 评论 -
莫烦强化学习视频笔记:第四节 4.4 Double DQN
1. 要点接下来,我们会介绍DQN的三种改进方法。如果训练速度太慢,Q现实中出现过估计,就可以使用这三种改进方法:DDQN:可以解决过估计的问题。Prioritized Experience Replay:更有效率的学习样本。Dueling DQN:将原本DQN的输出改为两个数据内容。本篇教程介绍其一。本篇教程是基于 Deep Q network (DQN) 的选学教程. 以下教程缩减了在 DQN 方面的介绍, 着重强调 Double DQN 和 DQN 在代码上不同的地方. .转载 2021-11-09 16:54:38 · 405 阅读 · 0 评论 -
莫烦强化学习视频笔记:第四节 4.3 OpenAI Gym 环境库
1. 要点手动编环境是一件很耗时间的事情, 所以如果有能力使用别人已经编好的环境, 可以节约我们很多时间. OpenAI gym 就是这样一个模块, 他提供了我们很多优秀的模拟环境. 我们的各种 RL 算法都能使用这些环境. 不过 OpenAI gym 暂时只支持 MacOS 和 Linux 系统. Windows 已经支持, 但是听说还没有全面支持, 大家时不时查看下官网, 可能就有惊喜. 实在等不及Windows更新了, 用 tkinter 来手动编写一下环境也行. 这里有我制作的很好的tkin..转载 2021-11-09 10:26:11 · 710 阅读 · 1 评论 -
莫烦强化学习视频笔记:第四节 4.2 DQN算法更新、神经网络和思维决策(迷宫例子)
目录1. 要点2. 算法3. 代码3.1 主程序(算法更新)3.2DeepQNetwork3.2.1 两个神经网络3.2.2 神经网络结构3.2.3 创建两个网络3.3 思维决策3.3.1 代码主结构3.3.2初始值3.3.3 存储记忆3.3.4 选行为3.3.5学习3.3.6 看学习效果3.4 修改版的 DQN3.5 说明1. 要点Deep Q Network 的简称叫 DQN, 是将 Q lea...转载 2021-11-08 17:05:05 · 1007 阅读 · 1 评论 -
莫烦强化学习视频笔记:第四节 4.1 Deep Q Network(DQN)
目录1. 强化学习与神经网络2. 神经网络的作用3. 神经网络参数更新4. DQN 两大利器这一节,我们会来说说强化学习中的另一种强大武器, Deep Q Network 简称为 DQN. Google Deep mind 团队就是靠着这 DQN 使计算机玩电动玩得比我们还厉害.注: 本文不会涉及数学推导. 大家可以在很多其他地方找到优秀的数学推导文章.1. 强化学习与神经网络之前我们所谈论到的强化学习方法都是比较传统的方式, 而如今, 随着机器学习在日常生活中的...转载 2021-11-04 15:50:15 · 366 阅读 · 0 评论 -
莫烦强化学习视频笔记:第三节 3.4 Sarsa-lambda
目录1. 要点2. 代码主结构3. 预设值4. 检测 state 是否存在5. 学习1. 要点Sarsa-lambda 是基于 Sarsa 方法的升级版, 他能更有效率地学习到怎么样获得好的 reward. 如果说 Sarsa 和 Qlearning 每次获取到 reward后, 只更新获取到 reward 的前一步. 那 Sarsa-lambda 就是更新获取到 reward 的前 lambda 步. lambda 是在 [0, 1] 之间取值,如果 lambd...转载 2021-11-04 15:21:49 · 342 阅读 · 0 评论 -
莫烦强化学习视频笔记:第三节 3.3 什么是Sarsa-lambda
Q-learning是off-policy的,就是可以看着别人玩,自己学着别人再玩;Sarsa是on-policy的算法,自身走到哪一步就学习哪一步,所以Sarsa只能从自身的经验学。下面是Sarsa的算法描述:接着上节内容, 我们来实现RL_brain的SarsaTable部分, 这也是 RL 的大脑部分, 负责决策和思考.代码主结构和之前定义 Qlearning 中的QLearningTable一样, 因为使用 tabular 方式的Sarsa和Qlearn...转载 2021-11-04 11:36:48 · 251 阅读 · 0 评论 -
莫烦强化学习视频笔记:第三节 3.2 Sarsa算法更新和思维决策(迷宫例子)
目录1. 要点2. 算法流程3. 算法代码部分3.1 迭代更新3.2 思维决策代码3.2.1 学习1. 要点这次我们用同样的迷宫例子来实现 RL 中另一种和 Qlearning 类似的算法, 叫做 Sarsa (state-action-reward-state-action). 我们从这一个简称可以了解到, Sarsa 的整个循环都将是在一个路径上, 也就是 on-policy, 下一个 state, 和下一个 action将会变成他真正采取的 action 和...转载 2021-11-04 10:38:21 · 411 阅读 · 0 评论 -
莫烦强化学习视频笔记:第三节 3.1 Sarsa
莫烦强化学习视频笔记:第二节 2.3 Q-Learning算法更新转载 2021-11-03 18:24:12 · 260 阅读 · 0 评论 -
莫烦强化学习视频笔记:第二节 2.3 Q-Learning算法更新和思维决策(迷宫例子)
莫烦强化学习视频笔记:第二节 2.2 Q-Learning简单例子转载 2021-11-02 17:01:24 · 598 阅读 · 1 评论 -
莫烦强化学习视频笔记:第二节 2.2 Q-Learning简单例子
1. 例子说明这一次我们会用 tabular Q-learning 的方法实现一个小例子, 例子的环境是一个一维世界, 在世界的右边有宝藏, 探索者只要得到宝藏尝到了甜头, 然后以后就记住了得到宝藏的方法, 这就是他用强化学习所学习到的行为.-o---T# T 就是宝藏的位置, o 是探索者的位置Q-learning 是一种记录行为值 (Q value) 的方法, 每种在一定状态的行为都会有一个值Q(s, a), 就是说 行为a在s状态的值是Q(s, a).s在上面的探索者...转载 2021-11-01 14:13:51 · 456 阅读 · 0 评论 -
莫烦强化学习视频笔记:第二节 2.1 Q-Learning
1. Q-Learning简介行动准则:好的行为能够获得奖励,不好的行为会获得惩罚。假设你有两个选择:写作业和看电视。你选择连续看电视,被爸妈发现打屁股。你吸取了惨痛的教训,第二次持续认真的写作业。举例,之前没有写过作业,所以没有任何经验。第一个状态可选择写作业也可以选择看电视。假设第一个状态是写作业,写一会儿就去看电视了,这时候状态由写作业变为了看电视,直到父母回来发现我在看电视,然后把我痛打了一顿,我记住了这次教训。假设我们的行为准则已经学习好了。2. Q表Q-lear..翻译 2021-11-01 13:26:15 · 287 阅读 · 0 评论 -
莫烦强化学习视频笔记:第一节 1.3 课程准备和要求
学习资料:OpenAI gym 官网 我的 Tensorflow 快速入门教程 我的 numpy pandas 快速入门教程 有趣的机器学习 播放列表教程必备模块:强化学习有一些现成的模块可以使用, 但是那些模块并不全面, 而且强化学习很依赖与你给予的学习环境. 对于不同学习环境的强化学习, 可能 RL 的代码就不同. 所以我们要抱着以不变应万变的心态, 用基础的模块, 从基础学起. 懂了原理, 再复杂的环境也不在话下.所以用到的模块和对应的教程:Numpy, Pandas(必学..转载 2021-10-29 16:58:27 · 112 阅读 · 0 评论 -
莫烦强化学习视频笔记:第一节 1.2 强化学习方法汇总
首先是通过是否需要理解环境(环境给我们什么就是什么),能够分为无模型的强化学习方法和基于模型的强化学习方法。假设这里有一个机器人和一个星球X。无模型的强化学习方法(Model-Free):不需要理解环境,机器人对星球X一无所知,机器人也不知道星球X对于他们的行为对做出怎样的反馈。举个例子,机器人决定扔了一颗原子弹要真实的世界(星球X),结果把自己也炸死了。基于模型的强化学习方法(Model-Based) :机器人通过过往的经验先理解真实的世界是如何的,建立一个模型模拟真实世界的反馈(这里如何获得的模型..翻译 2021-10-29 16:27:46 · 395 阅读 · 0 评论 -
莫烦强化学习视频笔记:第一节 1.1 什么是强化学习
我们人类在进行学习时,总是从一开始什么都不知道,经过不断的尝试与纠错,最终获得正确解决问题方法的过程,这就可以看作一个强化学习过程。实际,强化学习的例子很多:Alpha-Go在围棋场上战胜人类的高手Alpha-Go 百度百科让计算机学习如何玩一些经典的游戏,如Atari游戏: 这些都是让计算机不断地尝试并学习行为准则,以赢得围棋棋局或者在打砖块游戏中得到高分。如何学习?想象此刻有一个虚拟的老师正在教计算机如何学习,但是他只能够为你的行为打分。那么如何通过这些分数来学习呢?很简单.转载 2021-10-15 10:46:34 · 158 阅读 · 0 评论