[Ubuntu20] Gym入门，Mujoco

最新推荐文章于 2025-05-20 17:49:55 发布

coco_1998_2

最新推荐文章于 2025-05-20 17:49:55 发布

阅读量393

点赞数 2

CC 4.0 BY-SA版权

文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/coco_1998_2/article/details/143748314

OpenAI Gym是 OpenAI 出的研究强化学习算法的 toolkit，对于强化学习算法来说，大部分的论文环境都已经被 OpenAI 的 gym 环境集成，我们可以很便利的使用该工程来测试自己的强化学习算法，与他人的算法做一个对比。

Gym 官网

Github：https://github.com/openai/gym

官网：http://gym.openai.com/

安装方式

pip install gym

Gym 使用介绍

创建一个 gym 环境：

env = gym.make("CartPole-v1")

获取所有可用环境：

gym.envs.registry.all()

创建环境后，必须用 reset() 初始化，返回第一个观察值，观察值取决于环境的类型。

obs = env.reset()

环境可能采取的行动: env.action_space，每个环境都带有 action_space 和 observation_space 对象。这些属性是 Space 类型，描述格式化的有效的行动和观察。

step() 执行给定动作并返回四个值

obs: 新观察
reward: 无论做什么，每一步获得 1.0 奖励，因此目标是使小车尽可能长时间运行
done: 整个回合结束时，此值为 True，之后必须重置环境
info: 环境特定的字典，提供额外的信息

obs, reward, done, info = env.step(env.action_space.sample())

使用完环境后，调用 close() 释放资源。

env.close()

import time

import gym

"""
1. 环境（environment）
2. 智能体agent（算法）
agent发送action至environment，environment返回观察和回报。
"""

def main():
    """
    用 make() 创建一个 gym 中的现成环境
    """
    env = gym.make("CartPole-v1")
    obs, reward, done, info = env.reset()
    print("obs: {}".format(obs))
    print("reward: {}".format(reward))
    print("done: {}".format(done))
    print("info: {}".format(info))
    print("action_space: {}".format(env.action_space))
    print("observation_space: {}".format(env.observation_space))
    print("observation_space.high: {}".format(env.observation_space.high))
    print("observation_space.low: {}".format(env.observation_space.low))
    # 刷新当前环境，并显示
    for _ in range(1000):
        env.render()
        obs, reward, done, info = env.step(env.action_space.sample())
        if done:
            break
        time.sleep(0.1)
    env.close()

if __name__ == "__main__":
    main()