
RL
文章平均质量分 68
dlphay
e-mail:740595707@qq.com
展开
-
Q-Learning之MDP问题
强化学习需要考虑的问题是Agent与Environment多参数之间交互的任务,同样会存在闭环控制链,来使系统达到我们所预期的最优状态。对于绝大多数的加强学习都可以模型化为MDP问题(Figure2 中间部分),在MDP问题中,提到State是完全可观察的全部环境的State ,并且下一个State却决于当前的State和当前的Action。在此基础上,Policy起着连接State和Action原创 2017-04-11 17:50:22 · 5338 阅读 · 1 评论 -
A3C经典源码
import torchimport torch.nn as nnimport torch.nn.functional as Ffrom torch.autograd import Variableimport matplotlib.pyplot as pltimport numpy as npimport mathimport randomimport osimport gym原创 2017-10-26 11:05:30 · 1389 阅读 · 1 评论 -
TRPO
转载自知乎专栏 天津包子馅儿 的知乎今天开始我们的第七讲,TRPO。先简短地介绍一下:TRPO是英文单词Trust region policy optimization的简称,翻译成中文是信赖域策略优化。提出这个算法的人是伯克利的博士生John Schulman,此人已于2016年博士毕业。Schulman的导师是强化学习领域的大神Pieter Abbeel, Abbeel是伯克利转载 2017-10-16 17:34:32 · 5054 阅读 · 1 评论 -
深度强化学习与自适应在线学习的阿里实践
『干货』深度强化学习与自适应在线学习的阿里实践2017-02-24 阿里技术http://url.cn/5epDVHI1搜索算法研究与实践1.1背景淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的转载 2017-10-29 19:39:51 · 6360 阅读 · 0 评论 -
基于table的Q learning和Sarsa算法
Off-policy Q learning算法和On-policy Sarsa learning都是时序差分(TD)下对动作价值函数优化的单步方法,在没有神经网络之前,都是通过table的方法,下面简单介绍一下: 最佳决策可以通过遍历所有的情况去得到,有些时候情况比较多元,只能通过部分的情况去学习经验,然后得到一个亚最佳决策(趋近于最佳决策)。那么如何得到亚最佳决策是我们关心的问题。原创 2017-10-05 16:46:11 · 1127 阅读 · 0 评论 -
RL论文
https://zhuanlan.zhihu.com/p/21378532?refer=intelligentunit原创 2017-10-09 19:32:20 · 670 阅读 · 0 评论 -
Policy Gradient简述
占个坑!!!简单解释Policy Gradient需要Actor 网络来实现,通过对动作的输出概率的对数似然值乘上动作的价值评价作为loss去更新policy(动作的概率)。对于动作的价值评价更是多种多样,这些就是PG(Policy Gradient)的核心部分。注:log的有无区别 加log:增加了非线性 无log:无非线性详情在这里: 一共涉及6种价值的评估: 1 轨迹中,全部奖励值原创 2017-10-11 10:00:57 · 2450 阅读 · 2 评论 -
基于神经网络的DQN方法
Deep Q Nework 方法:DeepQ Network算法的详细解释:需要明白两个概念,一个是Q网络,一个是targrtQ网络,Q网络是我们预测网络,targrt Q网络可以认为是我们的训练网络,训练的目标是找到目标Q值:,这里目标Q值的定义依据时间差分算法(n-step TD,一般采用单步时差更新,步数越长,参考的奖励值数量也越多,网络的远见能力越强,),认为目原创 2017-10-05 21:55:32 · 4049 阅读 · 0 评论 -
RL经典mode/value/policy/step/on/off
什么是强化学习?强化学习是一类算法,是让计算机实现从一开始什么都不懂,脑袋里没有一点想法,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法.这就是一个完整的强化学习过程.实际中的强化学习例子有很多.比如近期最有名的 Alpha go,机器头一次在围棋场上战胜人类高手,让计算机自己学着玩经典游戏Atari,这些都是让计算机在不断转载 2017-09-30 12:55:26 · 919 阅读 · 0 评论 -
AI实现方式探索和演变 ——神经网络+增强学习
神经网络+增强学习神经网络+增强学习AI实现方式探索 ——神经网络+增强学习儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典的马里奥形象出现。平时我们都是人来玩马里奥游戏,能否可以让马里奥智能的自己闯关个呢?OK,利用人工智能的相关算法来进行自动化通关一直是一个热门的话题,最近最火的转载 2017-09-26 16:29:38 · 945 阅读 · 0 评论 -
RL增强学习在无人驾驶中的应用
csdn公式编辑器不好用,就直接从word里面截图发上来一些理论公式:长期规划问题迷宫:复杂决策的情景----我们只有把基于搜索的和基于增强学习的算法结合,才能有效解决这类问题。围棋:确定性的环境,长期奖励----基于搜索的和基于增强学习的算法结合自动驾驶:环境非确定--转移函数未知自动驾驶简介感知、决策和控制决策:(对安全和可靠性有着严格要求)原创 2017-08-29 09:49:35 · 2930 阅读 · 0 评论 -
DeepMind星际争霸2开源机器学习平台
DeepMind 之前开源了《星际争霸2》的深度强化学习平台,这是个很好的训练环境,学起来也很有趣。下面是一份有关设置环境和训练模型的教程,基于Mac环境。我们会跑一遍训练脚本,使用Deep Q-Network解决CollectMineralShards这个mini-game。享受学习吧~转载 2017-09-06 09:16:23 · 5979 阅读 · 1 评论 -
NIPS-2013:Playing Atari with Deep Reinforcement Learning
感谢作者的翻译与总结http://blog.youkuaiyun.com/songrotek/article/details/50581011来源:NIPS 2013作者:DeepMind理解基础:增强学习基本知识深度学习 特别是卷积神经网络的基本知识创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控制策略转载 2017-08-21 20:12:09 · 3156 阅读 · 0 评论 -
DQN-《Human-level control through deep reinforcement learning》译文
增强学习的理论有规范的解释,使基于心理学和动物行为感知的神经系统科学,解决Agent在环境中如何优化控制。为了把增强学习成功应用在接近复杂的真实世界的情形下,Agent将会面临棘手的任务:对来自环境中的高维感知输入进行有效的模型表示,可以学习过去的经验来应对未知的情形和环境。显然地,人类和其他动物可以通过增强学习和分层感知处理系统的协调组合来解决问题,前者已经通过大量的神经数据得到证明,其中时间差翻译 2017-07-25 20:30:52 · 6287 阅读 · 0 评论 -
Reinforcement Learning学习总结
强化学习是需要建立一个存在大量表征学习参数的世界模拟器(World Simulator),模拟真实世界的逻辑和原理,它的目的和作用是:让机器(Agent)能够了解并且预测世界的规律,通过预测和规划,具备理性的逻辑分析能力。Actor-Critic算法思想:对于一个系统,从状态输入到决策输出之间,我们可以联合Policy-based和Value-based两种决策方式去改进成为新的决策方式。原创 2017-04-11 19:07:22 · 775 阅读 · 1 评论 -
VIZDOOM 配置说明
VIZDOOM平台配置说明:1 cmake $sudo apt-get install cmake2 boost Library for ubuntu $sudo apt-get install libboost-all-dev $cd boost_1_63_0 $./bootstrap.sh3 ZDoom dependencies $sudo ap原创 2017-04-13 21:03:42 · 3279 阅读 · 0 评论 -
指导Agent在XX的环境中做出最优决策的模型框架
任务:自动驾驶具备人的行为智能(指导Agent在XX的环境中做出最优决策的模型框架)的目的。 针对自动驾驶问题,提出不需要专家知识辅助的 简单说明:增强学习中神经网络需要完成的任务:针对图像,通过(神经网络)抽象出任务所处环境的特征信息,将特征信息与动作行为之间建立联系(相比于传统图像识别任务:特征信息与识别目标位置、类别之间建立联系)。Agent需要与环境层(真实环境,模拟环境,游戏环境原创 2017-10-11 09:36:00 · 3278 阅读 · 0 评论