OpenAI教程

本文介绍了OpenAI Gym,一个用于增强学习算法研发和比较的工具包,支持与tensorflow和theano等数值计算库兼容。OpenAI Gym提供各种环境,通过统一的Env接口,包括reset、step和render等方法。文章详细讨论了环境、动作空间、观察、奖励和运行过程,并给出了安装和运行CartPole-v0环境的例子。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

英文版:https://gym.openai.com/docs

2016年 5 月 4日,OpenAI发布了人工智能研究工具集 OpenAI Gym。OpenAI Gym是一款用于研发和比较学习算法的工具包。它与很多数值计算库兼容,比如tensorflow和theano。现在支持的语言主要是python。

openai gym 是一个增强学习(reinforcement learning,RL)算法的测试床(testbed)。增强学习和有监督学习的评测不一样。有监督学习的评测工具是数据。只要提供一批有标注的数据18:34:13就能进行有监督学习的评测。增强学习的评测工具是环境。需要提供一个环境给 Agent 运行,才能评测 Agent 的策略的优劣。OpenAI Gym 是提供各种环境的开源工具包。

 

增强学习有几个基本概念:

(1)     agent:智能体,也就是机器人,你的代码本身。

(2)     environment:环境,也就是游戏本身,openai gym提供了多款游戏,也就是提供了多个环境。

(3)     action:行动,比如玩超级玛丽,向上向下等动作。

(4)     state:状态,每次智能体做出行动,环境会相应地做出反应,返回一个状态和奖励。

(5)     reward:奖励:根据游戏规则的得分。智能体不知道怎么才能得分,它通过不断地尝试来理解游戏规则,比如它在这个状态做出向上的动作,得分,那么下一次它处于这个环境状态,就倾向于做出向上的动作。

 

OpenAI Gym由两部分组成:

  1. gym开源库:测试问题的集合。当你测试增强学习的时候,测试问题就是环境,比如机器人玩游戏,环境的集合就是游戏的画面。这些环境有一个公共的接口,允许用户设计通用的算法。
  2. OpenAI Gym服务。提供一个站点(比如对于游戏cartpole-v0:https://gym.openai.com/envs/CartPole-v0)和api,允许用户对他们的测试结果进行比较。

 

gym的代码在这上面:https://github.com/openai/gym

gym的核心接口是Env,作为统一的环境接口。Env包含下面几个核心方法:

1、reset(self):重置环境的状态,返回观察。

2、step(self,action):推进一个时间步长,返回observation,reward,done,info

3、render(self,mode=’human’,close=False):重绘环境的一帧。默认模式一般比较友好,如弹出一个窗口。

安装

      1.Linux(没试过):

apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig

  2.Windows(有两种方法):

(1)使用pip:

pip install gym

 (2)使用git:

git clone https://github.com/openai/gym
cd gym
pip install -e . # minimal install
pip install -e .[all] # full install (this requires cmake and a recent pip version)

 

接下来以cartpole-v0(https://gym.openai.com/envs/CartPole-v0)举例。

 这个游戏的规则是让杆不倒。Openai gym提供了行动的集合,环境的集合等等。Cartpole-v0来说,动作空间包括向左拉和向右拉两个动作。其实你并不需要关心它的动作空间是什么,当你的学习算法越好,你就越不需要解释这些动作。

 

运行环境

运行CartPole-v0环境1000个时间步(timestep)。

import gym
env = gym.make(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值