
强化学习
BBJG_001
手与大脑的距离决定了理想与现实的相似度
展开
-
mujoco环境变量报错:Missing path to your environment variable.
Missing path to your environment variable. Current values LD_LIBRARY_PATH= Please add following line to .bashrc: export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/root/.mujoco/mujoco200/bin报错环境Ubunut18...原创 2020-04-28 11:49:55 · 6944 阅读 · 1 评论 -
tkinter制作强化学习可视化环境
原文地址分类目录——强化学习分类目录——tkinter全部代码先看一下环境效果强化学习用到的环境通常需要以下几个功能函数_init_() def __init__(self): super(Maze, self).__init__() self.observatin_space = [(x, y) for x in range(1...原创 2020-03-18 20:00:58 · 2578 阅读 · 0 评论 -
强化学习:Pytorch实现DQN
原文地址分类目录——强化学习分类目录——Pytorch全部代码DQN的理论理解可以参见我写的 强化学习:DQN的理解,这里就直接上代码了,需要处通过注释进行说明导入支持包import torchimport torch.nn as nnimport numpy as npfrom gymTest.mazeEnv import Maze # 这是一个我自己写的环境...原创 2020-03-17 10:14:43 · 4573 阅读 · 4 评论 -
强化学习:DQN的理解
原文地址分类目录——强化学习还是根据Q(s, a)值来进行动作判断的一种机制传统的Q-Learning强化学习会生成一个状态动作的组合表,通过一轮轮的迭代使这个表格收敛。**问题:**现实中的活动往往状态空间很大,比如下围棋,理论上Q表的矩阵要达到(19**2)*(19**2)的规模,存储这么一个表格是一个问题,学习并让这个表格收敛更是一个大问题。——如果能有一个公式能通过输入当前的状...原创 2020-03-16 11:03:07 · 2866 阅读 · 0 评论 -
强化学习:一个Q_Learning算法+gym自定义可视化环境实例
原文地址分类目录——强化学习先观察效果 上图是训练过程中的图片 上图是训练结束后测试阶段的效果,依次选择0,1,2,3四个位置,智能体均能自行到达终点环境解释状态空间S:共有5个状态,从左到右一次为0,1,2,3,4动作空间A:共有3个动作,0,1,2分别表示原地不动,向左,向右Q值表为S*A的表格,每个Q值表示在状态s下选择动作a的Q值(s跟a搭配的合适程度,越大...原创 2020-03-15 09:39:44 · 5162 阅读 · 0 评论 -
强化学习:自定义gym环境可视化绘制
原文地址分类目录——强化学习Gym环境的主要架构查看gym.Env类的主要结构如下其中主要会用到的是metadata、step()、reset()、render()、close()metadata:元数据,用于支持可视化的一些设定,改变渲染环境时的参数,如果不想改变设置,可以无step():用于编写智能体与环境交互的逻辑;它接受一个动作(action)的输入,根据action给...原创 2020-03-14 09:34:56 · 10598 阅读 · 4 评论 -
强化学习:gym环境的解读及使用
原文地址分类目录——强化学习本文全部代码以立火柴棒的环境为例效果如下获取环境env = gym.make('CartPole-v0') # 定义使用gym库中的某一个环境,'CartPole-v0'可以改为其它环境env = env.unwrapped # 据说不做这个动作会有很多限制,unwrapped是打开限制的意思可以通过gym...原创 2020-03-13 10:35:26 · 18617 阅读 · 3 评论 -
强化学习:gym自定义可视化环境实例
原文地址分类目录——强化学习先观察一下环境测试的效果Gym环境的主要架构查看gym.Env类的主要结构如下其中主要会用到的是metadata、step()、reset()、render()、close()metadata:元数据,用于支持可视化的一些设定,改变渲染环境时的参数,如果不想改变设置,可以无step():用于编写智能体与环境交互的逻辑;它接受一个动作(acti...原创 2020-03-12 09:57:47 · 7912 阅读 · 3 评论 -
强化学习:Gym模块
原文地址分类目录——强化学习Gym官网Gym is a toolkit for developing and comparing reinforcement learning algorithms. It supports teaching agents everything from walking to playing games like Pong or Pinball.引自Gym...原创 2020-03-11 13:41:05 · 3395 阅读 · 0 评论 -
从Q_Learning看强化学习
原文地址Q值Q值是一个与状态s和动作a相关的值,表示的意义为在状态s下选择动作a的程度,但应该注意它不同于强化学习中的回报R,回报是局部的,只在当下的状态上,相当于到达了某个成就点?Q值是全局性的,当下的Q值受到后续所有Q值的影响。两者之间存在着正的相关关系,选择Q值最大的动作,获得的总回报是最大的。下面是Q-Learning更新的两种表示方式,它们是等价的从1式中可以看出,Q是跟...原创 2020-03-10 17:25:14 · 2230 阅读 · 0 评论