
RL
文章平均质量分 51
算法学习者
计算机各种知识学习笔记
展开
-
introduction-to-reinforcement-learning-implementation
https://www.analyticsvidhya.com/blog/2017/01/introduction-to-reinforcement-learning-implementation/原创 2017-01-20 16:30:12 · 6723 阅读 · 0 评论 -
Combining policy gradient and Q-learning
https://arxiv.org/abs/1611.01626Brendan O'Donoghue, Remi Munos, Koray Kavukcuoglu, Volodymyr Mnih(Submitted on 5 Nov 2016 (v1), last revised 7 Apr 2017 (this version, v3))Policy gradie转载 2017-04-20 11:11:49 · 7681 阅读 · 0 评论 -
强化学习(Reinforcement Learning)知识整理
因为准备投入学习 CS294,具体见 知乎专栏,复习了下之前学习 Udacity 和 CS181 中有关强化学习部分的笔记和资料,再看了遍 David Silver 课程的 PPT,整理成了这篇文章。另外,准备建一个深度增强学习方面的微信交流群,有兴趣的朋友可以加我微信:awolegechu 请注明 姓名-学校/单位马尔可夫决策过程(Markov Decision Proces转载 2017-04-16 20:31:06 · 22208 阅读 · 0 评论 -
增强学习中的on-policy和off-policy的区别
首先说下观点:你估计policy或者value-function的时候,需要用到一些样本,这些样本也是需要采用某种策略(可能固定、可能完全随机、也可能隔一段时间调整一次)生成的。那么,判断on-policy和off-policy的关键在于,你所估计的policy或者value-function 和 你生成样本时所采用的policy 是不是一样。如果一样,那就是on-policy的,否转载 2017-04-16 20:26:45 · 9226 阅读 · 1 评论 -
OpenAI Gym 入门与提高(一) Gym环境构建与最简单的RL agent
Openai gym是一个用于开发和比较RL算法的工具包,与其他的数值计算库兼容,如tensorflow或者theano库。现在主要支持的是python语言,以后将支持其他语言。gym文档在https://gym.openai.com/docs。Openai gym包含2部分:1、gym开源库:包含一个测试问题集,每个问题成为环境(environment),可以用于自己的RL算法开转载 2017-04-22 00:36:17 · 19405 阅读 · 0 评论 -
Deep Reinforcement Learning: Pong from Pixels
This is a long overdue blog post on Reinforcement Learning (RL). RL is hot! You may have noticed that computers can now automatically learn to play ATARI games (from raw game pixels!), they are beat转载 2017-04-19 16:20:21 · 8559 阅读 · 0 评论 -
论文笔记:Mastering the game of Go with deep neural networks and tree search
背景:完全信息博弈与MCTS算法要完全弄清AlphaGo背后的原理,首先需要了解一下AI在博弈游戏中常用到的蒙特卡洛树搜索算法——MCTS。在一个完全信息下的博弈游戏中,如果所有参与者都采取最优策略,那么对于游戏中的任意一个局面ss,总有一个确定性的估值函数v∗(s)v∗(s)可以直接计算出最终的博弈结果。理论上,我们可以通过构建一棵博弈树,递归地求解出v∗(s)v∗(s)。这就是转载 2017-04-24 22:54:27 · 10289 阅读 · 4 评论 -
pytorch rl code
Asynchronous Advantage Actor Critic (A3C) from "Asynchronous Methods for Deep Reinforcement Learning"https://github.com/ikostrikov/pytorch-a3cPyTorch's version of Doom-net implementing s原创 2017-04-26 00:13:37 · 7418 阅读 · 0 评论 -
reinforce
I am studying RL with reinforcement/reinforce.py in pytorch/examples. I have some questions about it.What does action.reinforce(r)22 internally do ?Below is REINFORCE update rule where v_t转载 2017-04-26 00:15:47 · 7410 阅读 · 0 评论 -
强化学习族谱
https://github.com/tigerneil/deep-reinforcement-learning-familydeep-reinforcement-learning-recordsExplicitly show the relationships between various techniques of deep reinforcement learn转载 2017-06-18 02:01:17 · 1255 阅读 · 0 评论 -
Temporal-Difference (TD) Learning
【上一节蒙特卡洛方法(Monte Carlo Method)】 Temporal-difference (TD) learning可以说是增强学习的中心,它集成了蒙特卡洛思想和动态编程(dynamic programming, DP)思想,像蒙特卡洛方法一样,TD 方法不需要环境的动态模型,直接从经验经历中学习,像 DP 方法一样,TD 方法不需要等到最终的 outcome 才更新模型,转载 2017-07-11 15:30:33 · 2404 阅读 · 0 评论 -
解读continuous control with deep reinforcement learning(DDPG)
版权声明:本文为博主原创文章,未经博主允许不得转载。博主:shenshikexmu联系方式:shenshikexmu@163.com缘起DDPG,是Google Deepmind第一篇关于连续动作的深度加强学习论文(是否第一篇存疑)。DQN(Deep Q Network)生成的策略执行的动作是离散或者低维的,虽然在状态输入上可以是高维的观察状态。如在DQN2014中转载 2017-07-13 17:53:08 · 2886 阅读 · 1 评论 -
深度强化学习 Deep Reinforcement Learning 学习整理
这学期的一门机器学习课程中突发奇想,既然卷积神经网络可以识别一副图片,解决分类问题,那如果用神经网络去控制‘自动驾驶’,在一个虚拟的环境中不停的给网络输入车周围环境的图片,让它去选择前后左右中的一个操作,并给予适当的反馈,是否能够把‘驾驶问题’,转化为分类的问题,用神经网络解决呢。和经典的强化学习 Reinforcement Learning 最大的区别是,它将直接处理像素级的超高维度raw转载 2017-07-14 00:00:04 · 18499 阅读 · 1 评论 -
深度增强学习前沿算法思想【DQN、A3C、UNREAL,简介】
作者:Flood Sung,优快云博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究。责编:何永灿,欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@youkuaiyun.com本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石,引起了全世界的广泛关注,人工智转载 2017-07-14 00:03:47 · 4459 阅读 · 0 评论 -
业界 | OpenAI提出强化学习近端策略优化,可替代策略梯度法
选自OpenAI机器之心编辑部参与:蒋思源、Smith近日,OpenAI 发布了一种新型的强化学习算法,近端策略优化(Proximal Policy Optimization/PPO)算法,该算法的实现和调参十分简单,并且它的性能甚至要超过现阶段最优秀的方法。因为该算法实现非常简单并且有优秀的性能,PPO 已经成为了 OpenAI 默认使用的强化学习算法。转载 2017-07-21 13:28:32 · 3223 阅读 · 0 评论 -
Proximal Policy Optimization Algorithms
Proximal Policy Optimization AlgorithmsJohn Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov(Submitted on 20 Jul 2017)We propose a new family of policy gradient met转载 2017-08-23 05:59:28 · 3610 阅读 · 0 评论 -
深度强化学习的18个关键问题
深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破?这两天我阅读了一篇猛文Deep Reinforcement Learning: An Overview ,作者排山倒海的引用了200多篇文献,阐述强化学习未来的方向。原文归纳出深度强化学习中的常见科学问题,并列出了目前解法与相关综述,我在这里做出整理,抽取了相关的论文。这里精选18个关键问题,涵盖空间搜索、探索利用、策略评估、转载 2017-12-23 01:08:58 · 5713 阅读 · 1 评论 -
Policy Gradient Methods for Reinforcement Learning with Function Approximation
Function approximation is essential to reinforcement learning, but the standard approach of approximating a value function and determining a policy from it has so far proven theoretically intractable.转载 2017-04-20 23:53:39 · 8286 阅读 · 1 评论 -
Continuous control with deep reinforcement learning
https://arxiv.org/abs/1509.02971Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, Daan Wierstra(Submitted on 9 Sep 20转载 2017-04-21 14:22:31 · 7735 阅读 · 0 评论 -
Resources for Reinforcement Learning: Theory and Practice
Week 0: Class Overview, IntroductionSlides from week 0: pdf.Week 1: Introduction and Evaluative FeedbackSlides from Tuesday: pdf.Slides from Thursday: pdf.The one from Shivaram Kalyanakr转载 2017-04-19 18:15:10 · 8362 阅读 · 0 评论 -
MIXER as Reinforcement Learning
1. Our generative model can be viewed as an agent, which interacts with the external environment (the words and the context vector it sees as input at every time step).2. The parameters of this agen原创 2017-02-22 16:17:40 · 6365 阅读 · 0 评论 -
深度增强学习前沿算法思想
作者: Flood Sung,优快云博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究。 责编:何永灿,欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@youkuaiyun.com 本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅2017年《程序员》2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石,引起了全世界的转载 2017-03-22 01:09:07 · 6446 阅读 · 0 评论 -
DQN从入门到放弃5 深度解读DQN算法
0 前言如果说DQN从入门到放弃的前四篇是开胃菜的话,那么本篇文章就是主菜了。所以,等吃完主菜再放弃吧!1 详解Q-Learning在上一篇文章DQN从入门到放弃 第四篇中,我们分析了动态规划Dynamic Programming并且由此引出了Q-Learning算法。可能一些知友不是特别理解。那么这里我们再用简单的语言描述一下整个思路是什么。为了得到最优策略Pol转载 2017-03-30 23:57:54 · 20566 阅读 · 2 评论 -
Reinforcement Learning (DQN) tutorial
Author: Adam PaszkeThis tutorial shows how to use PyTorch to train a Deep Q Learning (DQN) agent on the CartPole-v0 task from the OpenAI Gym.TaskThe agent has to decide between two actions - m转载 2017-03-31 10:46:20 · 7311 阅读 · 0 评论 -
深度增强学习前沿算法思想
本文原载于《程序员》杂志2017年1月刊2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石,引起了全世界的广泛关注,人工智能进一步被推到了风口浪尖。而其中的深度增强学习算法是AlphaGo的核心,也是通用人工智能的实现关键。本文将带领大家了解深度增强学习的前沿算法思想,领略人工智能的核心奥秘。前言深度增强学习(Deep Reinforcement Learning转载 2017-03-31 15:32:15 · 7220 阅读 · 0 评论 -
突破 | DeepMind为强化学习引入无监督辅助任务,人工智能的Atari游戏水平达到人类的9倍
选自DeepMind Blog作者:Max Jaderberg、Volodymyr Mnih、Wojciech Marian Czarnecki机器之心编译参与:李泽南、吴攀、杜夏德几个小时前,DeepMind 在其官方博客发表文章介绍他们在强化学习上的最新研究进展。他们通过为代理在训练过程中增加两项额外的任务来增强标准的深度强化学习方法,结果显示代理实现了更好转载 2017-03-31 16:25:14 · 7648 阅读 · 0 评论 -
增强学习在无人驾驶中的应用
图1 增强学习和环境交互的框图增强学习存在着很多传统机器学习所不具备的挑战。首先,因为在增强学习中没有确定在每一时刻应该采取哪个行为的信息,增强学习算法必须通过探索各种可能的行为才能判断出最优的行为。如何有效地在可能行为数量较多的情况下有效探索,是增强学习中最重要的问题之一。其次,在增强学习中一个行为不仅可能会影响当前时刻的奖励,而且还可能会影响之后所有时刻的奖励。在最坏的情况下,转载 2017-04-10 22:39:32 · 12370 阅读 · 0 评论 -
漫谈DQN之Q-Learning
DeepMind于2013年12月份在arixv上发表了一篇论文Playing Atari with Deep Reinforcement Learning,该论文介绍了一种将传统的强化学习与深度学习相结合的模型,它可以直接根据屏幕像素点输出游戏动作。随后,2015年2月份DeepMind文章 Human-level Control through Deep Reinforcement Lea转载 2017-04-11 17:34:27 · 10294 阅读 · 0 评论 -
Deep Reinforcement Learning 基础知识(DQN方面)
Introduction深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted工作。深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。转载 2017-04-03 03:35:20 · 6453 阅读 · 0 评论 -
机器学习 cs229学习笔记6(增强学习 reinforcement learning,MDP)
==========================================================================上周生病再加上课余的一些琐事,这边的进度就慢下来了,本篇笔记基于 斯坦福大学公开课cs229 的 lecture16,lecture 17=================================================转载 2017-04-03 04:03:33 · 7347 阅读 · 0 评论 -
阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频
新智元报道来源:arxiv论文作者:Peng Peng, Quan Yuan , Ying Wen , Yaodong Yang, Zhenkun Tan, Haitao Long , Jun Wang译者:张易 【新智元导读】阿里巴巴认知计算实验室与伦敦大学学院计算机系合作,以游戏“星际争霸1”(下简称“星际”)中的微观战斗场景为测试环境,深入地研究了多个转载 2017-04-06 00:41:34 · 7845 阅读 · 0 评论 -
漫谈深度强化学习之手写Deep Q-Network解决迷宫问题
1. Q-Learning回顾上一期我们讲了Q-Learning以及Sarsa的算法流程,同时我们还手写了基于Q-Learning以及Sarsa来解决OpenAI gym中的FrozenLake问题。今天,我们将借助神经网络来重新解决这个问题。(FrozenLake问题简单来说就是走迷宫,走错了将不会有任何奖励,走到了目标位置就会获得1的奖励。关于FrozenLake问题的更多描述,请参阅转载 2017-04-19 11:54:40 · 13924 阅读 · 0 评论 -
深度增强学习之Policy Gradient方法1
1 前言在之前的深度增强学习系列文章中,我们已经详细分析了DQN算法,一种基于价值Value的算法,那么在今天,我们和大家一起分析深度增强学习中的另一种算法,也就是基于策略梯度Policy Gradient的算法。这种算法和基于价值Value的算法结合而成的Actor-Critic算法是目前效果最好的深度增强学习算法。那么关于Policy Gradient方法的学习,有以下一些网上转载 2017-04-19 16:15:18 · 20500 阅读 · 2 评论 -
DQN 从入门到放弃1 DQN与增强学习
1 前言深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习End-to-End Learning的一种全新的算法。简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted engineering的工作。深度增强学习具备转载 2017-04-19 16:39:39 · 12354 阅读 · 2 评论 -
蒙特卡洛树搜索 MCTS
什么是 MCTS?全称 Monte Carlo Tree Search,是一种人工智能问题中做出最优决策的方法,一般是在组合博弈中的行动(move)规划形式。它结合了随机模拟的一般性和树搜索的准确性。MCTS 受到快速关注主要是由计算机围棋程序的成功以及其潜在的在众多难题上的应用所致。超越博弈游戏本身,MCTS 理论上可以被用在以 {状态 state,行动 action} 对定义和转载 2017-05-01 02:46:22 · 11233 阅读 · 0 评论 -
Introduction to Monte Carlo Tree Search
https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/Introduction to Monte Carlo Tree SearchMon 07 September 2015by Jeff BradberryThe subject of game AI general转载 2017-05-01 17:27:43 · 8204 阅读 · 0 评论 -
AlphaZero 实战:从零学下五子棋(附代码)
雷锋网(公众号:雷锋网) AI 科技评论按,本文作者一缕阳光,本文首发于知乎专栏强化学习知识大讲堂,雷锋网 AI 科技评论获其授权转载。2 个多月前,AlphaGo Zero 横空出世,完全从零开始,仅通过自我对弈就能天下无敌,瞬间刷爆朋友圈,各路大神分分出来解读,惊叹于其思想的简单、效果的神奇。很快就有大神放出了开源版的 AlphaGo Zero,但是只有代码,没有训练出来的模型,因为据大神推算转载 2018-01-18 10:30:47 · 16164 阅读 · 4 评论