深度学习2-OpenAI Gym

原创

已于 2023-01-14 14:25:59 修改 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #python #人工智能

于 2022-12-23 16:28:36 首次发布

本文介绍了OpenAI Gym，一个用于强化学习（RL）的Python框架。Gym提供了一系列环境，允许智能体执行离散或连续动作，并通过统一的接口与环境交互。智能体基于观察做出决策，接收到奖励并更新策略。文章还提到了相关库如NumPy、PyTorch和PTAN，以及如何利用Wrapper类进行环境定制，如ObservationWrapper、RewardWrapper和ActionWrapper。

## OpenAI Gym

### 1.将智能体插入RL框架所需的高层次要求。

▪ 智能体：主动行动的人或物。实际上，智能体只是实现了某些策略的代码片段而已。这个策略根据观察决定每一个时间点执行什么动作。
▪ 环境：某些世界的模型，它在智能体外部，负责提供观察并给予奖励。而且环境会根据智能体的动作改变自己的状态。

### 2.基本、纯Python实现的随机RL智能体。

▪ NumPy：用于科学计算的库，它实现了矩阵运算和常用功能。
▪ OpenCV Python bindings：计算机视觉库，提供了许多图像处理的函数。
▪ Gym：RL框架，以统一的交互方式提供了各种各样的环境。
▪ PyTorch：灵活且有表现力的深度学习（Deep Learning，DL）库。第3章会提供它的速成课。
▪ PyTorch Ignite：基于PyTorch的高级工具库，用于减少样板代码。在第3章会有简短的介绍。完整的文档参见https://pytorch.org/ignite/。
▪ PTAN（https://github.com/Shmuma/ptan）：笔者创建的一个Gym的扩展开源软件，用来支持深度RL方法以及方便地创建构造块。所有用到的类将同源代码一起详细解释。

### 3.OpenAI Gym。

**Gym的主要目的是使用统一的接口来提供丰富的RL环境。**

▪ 在环境中允许执行的一系列动作。Gym同时支持离散动作和连续动作，以及它们的组合。
▪ 环境给智能体提供的观察的形状[1]和边界。
▪ 用来执行动作的step方法，它会返回当前的观察、奖励以及片段是否结束的指示。
▪ reset方法会将环境初始化成最初状态并返回第一个观察。

**在Gym中环境用Env类表示，它包含下面这些成员：**

▪ action_space：Space类的一个字段，限定了环境中允许执行的动作。