
深度强化学习
文章平均质量分 85
介绍机器学习、强化学习、深度学习、深度强化学习有关的基础原理、前沿算法和论文以及最新进展和应用。
@RichardWang
CS PhD Student, 研究深度强化学习技术&优化理论&应用落地
展开
-
深度强化学习系列(5): Double Q-Learning原理详解
论文地址: https://papers.nips.cc/paper/3964-double-q-learning.pdf本论文是由DeepMind发表于2015年NIPS的一篇论文,作者Hasselt。前言: Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在,而导致overestimation的主要原因来自于最大化值函...原创 2019-12-05 21:53:34 · 17829 阅读 · 4 评论 -
深度强化学习系列(2): ERROR: GLEW initalization error: Missing GL version
当深度强化学习之(6)中的环境安装好之后,一阵欣喜,觉得可以干大事了,于是激动的不行,迫不及待的想看效果 然而幸福来的太快就容易让人失望的越厉害,因此美好的事情总是值得多次磨砺 废话不说了,爆出的错误是这样的Running trained modelCreating window glfwERROR: GLEW initalization error: Missing GL versi...原创 2018-06-09 21:49:35 · 14042 阅读 · 9 评论 -
深度强化学习系列: OpenAI-baselines的使用方法
OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用OpenAI、DeepMind,伯克利三个可以说是强化学习的推动者,其中OpenAI 为很多算法都写了baselines。本文讲开始运行例子,以A2C算法为例子(具体a2c算法原理后续讲解):首先就是...原创 2018-06-08 20:43:40 · 15955 阅读 · 0 评论 -
深度强化学习系列(1): 深度强化学习概述
深度强化学习及其在自动驾驶中的应用( DRL & ADS )专栏系列文章规划DRL&ADS系列之(1): 强化学习概述DRL&ADS系列之(2): 深度强化学习及算法讲解DRL&ADS系列之(3): ADS软硬件分析及DRL在Torcs中的应用 概述机器学习是人工智能的一个分支,在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学...原创 2018-03-30 20:45:33 · 25790 阅读 · 7 评论 -
使用Amazon SageMaker RL 和Unity训练强化学习智能体
【更新记录】2022年3月25日 更新原始内容Unity 是最受欢迎的游戏引擎之一,不仅用于视频游戏开发,还被电影和汽车等行业采用。 Unity 提供工具来创建具有可定制物理、风景和角色的虚拟模拟环境。 Unity 机器学习代理工具包 (ML-Agents) 是一个开源项目,使开发人员能够针对在 Unity 上创建的环境训练强化学习 (RL) 智能体。强化学习是机器学习 (ML) 的一个领域,它教导软件代理如何在环境中采取行动,以最大限度地实现长期目标。有关更多信息,请参阅 Amazon Sa原创 2022-03-26 22:56:27 · 1788 阅读 · 0 评论 -
深度强化学习系列(10): NoisyNet-DQN原理及实现
论文地址: https://arxiv.org/pdf/1706.10295v1.pdf本篇论文是DeepMind发表于顶会ICLR2018上的论文,第一作者Meire,里面也有熟悉的Mnih等大佬,还是往常的阅读顺序:本文解决的是强化学习中的“探索问题”(efficient exploration),作者通过给训练网络中添加噪音参数(和梯度更新同时更新网络权重参数),通过权重网络的训练来...原创 2020-04-26 17:50:39 · 8125 阅读 · 4 评论 -
深度强化学习系列(6): DQN原理及实现
专栏系列文章规划DRL&ADS系列之(1): 强化学习概述DRL&ADS系列之(2): 深度强化学习及算法讲解 DRL&ADS系列之(3): ADS软硬件分析及DRL在Torcs中的应用 上一篇文章《DRL&ADS系列之(1): 强化学习概述》已经讲解了利用神经网络近似值函数的方法,即: V̂ (s,w)≈Vπ(s)q̂ ...原创 2018-03-30 20:49:19 · 11361 阅读 · 3 评论 -
深度强化学习系列(9): Dueling DQN原理及实现
本文是DeepMind发表于ICML2016顶会的文章(获得Best Paper奖),第一作者Ziyu Wang(第四作Hado Van Hasselt就是前几篇文章#Double Q-learning#,Double DQN的作者),可以说DeepMind开创了DQN系列算法(后续阐述OpenAI的策略梯度算法)。往常一样,摘要结论。其实本文提出的算法并没有过多的数学过程,而是一种网络结构...原创 2020-03-20 20:38:53 · 7704 阅读 · 2 评论 -
深度强化学习系列(8): Prioritized Experience Replay(PER-DQN)原理及实现
论文地址: https://arxiv.org/abs/1511.05952本论文是由DeepMind操刀,Schaul主导完成的文章,发表于顶会ICLR2016上,主要解决经验回放中的”采样问题“(在DQN算法中使用了经典的”experience replay“,但存在一个问题是其采用均匀采样和批次更新,导致特别少但价值特别高的经验没有被高效的利用)。还是往常的学习顺序,先摘要和结论...原创 2019-12-23 21:42:57 · 20597 阅读 · 4 评论 -
深度强化学习系列(7): Double DQN(DDQN)原理及实现
论文地址: https://arxiv.org/pdf/1509.06461.pdf本文是Google DeepMind于2015年12月提出的一篇解决Q值"过估计(overestimate)"的文章,作者Hado van Hasselt在其2010年发表的Double Q-learning算法工作的基础上结合了DQN的思想,提出了本文的state-of-the-art的Double DQN...原创 2019-12-17 17:15:29 · 15859 阅读 · 0 评论 -
深度强化学习系列(4): Q-Learning原理与实现
论文地址: http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdfQ-Learning是发表于1989年的一种value-based,且model-free的特别经典的off-policy算法,近几年的DQN等算法均是在此基础上通过神经网络进行展开的。1. 相关简介强化学习学习过程中,通常是将学习的序列数据存储在表格中,通过获取表中的数据,...原创 2019-12-16 17:40:17 · 3623 阅读 · 0 评论 -
深度强化学习系列: 最全深度强化学习资料
关于这项工作:本工作是一项由深度强化学习实验室(Deep Reinforcement Learning Laboratory, DeepRL-Lab)发起的公益项目,共联合深度强化学习领域的30+位博士,100+位硕士共同完成。文章同步于Github仓库:https://github.com/NeuronDance/DeepRL/tree/master/A-Guide-Resource-F...原创 2019-11-14 20:08:01 · 16600 阅读 · 2 评论 -
深度强化学习系列之(13): 深度强化学习实验中应该使用多少个随机种子?
How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Experiments前言不断检查实验结果的统计意义是解决深度强化学习中所谓“再现性危机”的强制性方法步骤之一。本论文将解释随机种子数与统计错误概率之间的关系。对于t检验和bootstrap置信区间检验...原创 2019-10-13 12:45:54 · 4437 阅读 · 0 评论 -
深度强化学习系列(15): TRPO算法原理及Tensorflow实现
深入浅出理解TRPO算法1、论文思想与原理1.1 Surrogate function(替代函数)1.2 目标函数1.3 一阶近似: ??函数1.3.1 技巧一:一阶近似1.3.2 重要性采样1.3.3 步长的选择1.4 单调递增证明:1.5 优化目标函数(Optimizing the objective function)Tensorflow代码实践前言: 策略梯度方法博大精深,但策略梯度...原创 2019-07-21 12:40:59 · 13314 阅读 · 5 评论 -
深度强化学习系列: “超参数”与“网络结构”自动化设置方法---DeepHyper
可扩展的异步神经网络和超参数搜索深度神经网络方法前言:在深度学习和机器学习算法学习和训练的过程中,有两个非常让人头疼的问题超参数的设置神经网络结构的设计这两个问题一直困扰每一个与神经网络有关的学习者,为了解决这些问题,谷歌公司开源了AutoML(貌似收费)。此外还有Keras(后期详解)等,本篇文章介绍一个自动化学习包: DeepHyperDeepHyper是一种用于深度神...原创 2019-03-22 11:58:11 · 5229 阅读 · 4 评论 -
深度强化学习系列: 深度强化学习的加速方法解读
《Accelerated methods for deep reinforcement learning》论文解读深度强化学习一直以来都以智能体训练时间长、计算力需求大而限制很多的人去学习,比如:AlphaZero训练3天的时间等,因此缩短训练周转时间成为一个重要话题。目前这块的研究成果并不是特别多,但,深度强化学习大神Pieter Abbeel发表了深度强化学习的加速方法,他从整体上提出了一个...原创 2019-01-31 14:59:25 · 11217 阅读 · 0 评论 -
深度强化学习系列: 多巴胺(Dopamine)环境配置和实例分析
Paper: Dopamine–a research framework for deep reinforcement LearningGithub: https://github.com/google/dopamine论文的首页明显告诉我们,这是一篇Google出的论文(所以值得一读),该文作者提出了一种新的深度强化学习研究框架: 多巴胺(Dopamine),旨在于丰富DRL的多样性,该框...原创 2019-01-10 13:09:20 · 3900 阅读 · 1 评论 -
深度强化学习系列(14): A3C算法原理及Tensorflow实现
在DQN,DDPG算法中我们用到了一个非常重要的思想就是经验回放本文首先从论文《Asynchronous Methods for Deep Reinforcement Learning》解读开始,这篇论文是Google于ICML2016顶会上发的,点击查看原始论文,当然里面的其中一直作者就是男神David Sliver,先放个论文照片! 从论文title中就可以看出是关于Asynchro...原创 2018-06-26 21:09:46 · 19870 阅读 · 2 评论 -
深度强化学习系列: “奖励函数”的设计和设置(reward shaping)
概述前面已经讲了好几篇关于强化学习的概述、算法(DPG->DDPG),也包括对环境OpenAI gym的安装,baseline算法的运行和填坑,虽然讲了这么多,算法也能够正常运行还取得不错的效果,但是一直以来忽略了一个非常重要的话题,那就是强化学习的《奖励函数》的设置。1、 Gym-Pendulum-v0例子分析奖励函数为什么要讲强化学习的概述呢?也许在我们以前运行的算法中我们并...原创 2018-06-25 17:47:55 · 68278 阅读 · 16 评论 -
深度强化学习系列(13): 策略梯度(Policy Gradient)
对于DQN来说使用一个网络直接逼近了值函数,最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说,很难全部计算所有的值函数来得到最好的策略,那么直接计算策略的方法就别提出来了。回顾一下前面几篇,所谓的策略,其实就是状态到动作的映射数学表达为 π:s→aπ:s→a\pi : s \to a, 我们用ττ\tau 表示状态s到最后一个状态的一个序列,表示为: τ:st...原创 2018-06-15 22:04:37 · 4473 阅读 · 3 评论 -
深度强化学习系列(16): 从DPG到DDPG算法的原理讲解及tensorflow代码实现
Atari 游戏所需的动作是离散的,且属于低维(只有少数几个动作),但现实生活中很多问题都是连续的,且维度比较高,比如机器人控制(多个自由度)等。虽然可以对连续性高维度的动作做离散型的处理,但是对于一个经过离散处理的大状态空间,使用DQN训练仍然是仍然是一个比较棘手的问题,因为DQN算法的核心思想是利用随机策略进行探索,对于高维度的来说,第一个问题是:模型很难收敛,第二个问题是需要在探索和利用之间进行协调原创 2018-05-22 18:00:53 · 16147 阅读 · 0 评论