
Reinforcement Learning
文章平均质量分 87
Hansry
我希望能有个明亮的落地窗,每天都晒一晒太阳。。。
展开
-
强化学习算法学习汇总笔记 (一) — Q-learning、Sarsa、DQN、Policy Gradients
一. 强化学习的分类1.Model-free 和 Model-based Model-free 即机器人不知道外界环境信息,只能在机器人执行每一步动作后从环境中得到反馈然后去学习,只能按部就班,一步一步等待真实世界的反馈,再根据反馈采取下一步行动。诸如Q Learning, Sarsa,Policy Gradients等算法。Model-based 指机器人对环境有一定的了解,可以对环境...原创 2018-06-25 22:39:45 · 5540 阅读 · 1 评论 -
强化学习算法学习汇总笔记 (二) — Actor Critic、DDPG、A3C、
一. Actor Critic1.基本概念 Actor Critic 为类似于Policy Gradient 和 Q-Learning 等以值为基础的算法的组合。a. 其中Actor 类似于Policy Gradient,以状态s为输入,神经网络输出动作actions,并从在这些连续动作中按照一定的概率选取合适的动作action。 b. Critic 类似于 Q-Learning 等以...原创 2018-06-27 14:49:55 · 9831 阅读 · 1 评论 -
强化学习 — mujoco、mujoco_py、gym 和 baselines的环境配置
博主环境 Ubuntu16.04 python 3.5.2 tensorflow 1.4.21.安装mujoco1.准备工作 在官网上下载 mjpro150 linux ,同时点击Licence下载许可证,需要full name email address computer id 等信息,其中根据使用平台下载 getid_linux(可执行文件) 获取 computer id,...原创 2018-07-16 15:48:45 · 6514 阅读 · 4 评论 -
安装gym-gazebo遇到的问题及解决方案
ros: kinetic gazebo : 7.13 python 3.61.问题:WARNING: Metapackage “ecl_lite” must buildtool_depend on catkin. WARNING: Metapackage “ecl_lite” should not have other dependencies besides a buildtool_d...原创 2018-10-28 19:48:12 · 2742 阅读 · 8 评论