[Ubuntu20] Gym入门,Mujoco

OpenAI Gym是 OpenAI 出的研究强化学习算法的 toolkit,对于强化学习算法来说,大部分的论文环境都已经被 OpenAI 的 gym 环境集成,我们可以很便利的使用该工程来测试自己的强化学习算法,与他人的算法做一个对比。

Gym 官网

Github:https://github.com/openai/gym

官网:http://gym.openai.com/

安装方式

pip install gym

Gym 使用介绍

创建一个 gym 环境:

env = gym.make("CartPole-v1")

获取所有可用环境:

gym.envs.registry.all()

 创建环境后,必须用 reset() 初始化,返回第一个观察值,观察值取决于环境的类型。

obs = env.reset()

 环境可能采取的行动: env.action_space,每个环境都带有 action_space 和 observation_space 对象。这些属性是 Space 类型,描述格式化的有效的行动和观察。

step() 执行给定动作并返回四个值

  • obs: 新观察
  • reward: 无论做什么,每一步获得 1.0 奖励,因此目标是使小车尽可能长时间运行
  • done: 整个回合结束时,此值为 True,之后必须重置环境
  • info: 环境特定的字典,提供额外的信息
obs, reward, done, info = env.step(env.action_space.sample())

使用完环境后,调用 close() 释放资源。

env.close()

import time

import gym

"""
1. 环境(environment)
2. 智能体agent(算法)
agent发送action至environment,environment返回观察和回报。
"""

def main():
    """
    用 make() 创建一个 gym 中的现成环境
    """
    env = gym.make("CartPole-v1")
    obs, reward, done, info = env.reset()
    print("obs: {}".format(obs))
    print("reward: {}".format(reward))
    print("done: {}".format(done))
    print("info: {}".format(info))
    print("action_space: {}".format(env.action_space))
    print("observation_space: {}".format(env.observation_space))
    print("observation_space.high: {}".format(env.observation_space.high))
    print("observation_space.low: {}".format(env.observation_space.low))
    # 刷新当前环境,并显示
    for _ in range(1000):
        env.render()
        obs, reward, done, info = env.step(env.action_space.sample())
        if done:
            break
        time.sleep(0.1)
    env.close()

if __name__ == "__main__":
    main()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值