深度强化学习(DRL)二:强化学习环境Gym

本文介绍强化学习的基础概念,选取OpenAI的Gym和MuJoCo作为学习框架,详细解析Gym环境如CartPole-v1的使用,包括环境安装、基本代码示例及观察值与动作空间的理解。

一、选择框架

RL方面学习框架和平台很多,比较出名的有DeepMind的 Control Suite,OpenAI的 GymMuJoCo,以及Roboschool、PyBullet等等。

模型和算法依赖于后端使用的库有numpy, tensorflow, keras, pytorch等等。

作为一个初学者,我选则比较常用的OpenAI的 GymMuJoCo作为环境,Python 2.7 or 3.5以上都可以。在Linux上测试会比较稳定,Windows折腾一下也行。

安装Gym:

# 不翻墙可能速度会比较慢
pip install gym  
# 用清华镜像下载
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gym 

MuJoCo安装过程:mujoco win7下载安装

另外,OpenAI出品了强化学习 (RL) 入门教程,叫Spinning Up
完全没有机器学习基础的人类,也可以迅速上手强化学习。有实战,有论文,有习题,帮你从入门到精通。

地址:Spinning Up

二、认识Gym

Gym是OpenAI的开源测试平台,可以从官方文档了解一下gym

Gym主要有以下几个环境:

  1. 经典控制和玩具文字:完成小规模任务,大部分来自RL文献。 他们是来帮助您入门的。

  2. <
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值