OpenAI

本文介绍了OpenAI Gym,这是由Google提供的一款用于测试和比较强化学习算法的环境库。文章详细阐述了Gym的基本概念,包括环境与agent的交互方式,以及如何通过关键接口进行环境重置、执行动作、获取反馈和渲染。此外,还提供了在不同操作系统上安装Gym的具体步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Introduction

OpenAI 是google提供的一个环境库,用以测试和对比不同强化学习算法。

下载地址:OpenAI

Basic

在强化学习中,有两个重要的概念:

  • 环境
  • 与环境交互的人(你所设计的算法)

环境的作用: 接受agent作出的某种action,并给予agent反馈,反馈信息主要包含reward 和 一些可观测状态量。

agent的作用: 根据反馈信息,做出下一次action

Gym 的核心接口是Env, 没有用户API。Env的几个重要接口是:

  • reset(self): 重置环境, 返回观测值
  • step(self,action): 朝环境做出某种行为,返回 观测,reward,done,info.
  • render(self,mode='human',close=False): 渲染一帧环境

Installation

Windows:

pip install gym

OSX:

brew install cmake boost boost-python sdl2 swig wget 

Ubuntu

apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig

env

  • action_space
    • n 动作空间的个数
  • observation_space
    • shape 维度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值