Introduction
OpenAI 是google提供的一个环境库,用以测试和对比不同强化学习算法。
下载地址:OpenAI
Basic
在强化学习中,有两个重要的概念:
- 环境
- 与环境交互的人(你所设计的算法)
环境的作用: 接受agent作出的某种action,并给予agent反馈,反馈信息主要包含reward 和 一些可观测状态量。
agent的作用: 根据反馈信息,做出下一次action
Gym 的核心接口是Env
, 没有用户API。Env的几个重要接口是:
reset(self)
: 重置环境, 返回观测值step(self,action)
: 朝环境做出某种行为,返回 观测,reward,done,info.render(self,mode='human',close=False)
: 渲染一帧环境
Installation
Windows:
pip install gym
OSX:
brew install cmake boost boost-python sdl2 swig wget
Ubuntu
apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig
env
- action_space
- n 动作空间的个数
- observation_space
- shape 维度