写一个强化学习训练的gym环境

原创

已于 2022-05-09 15:45:50 修改 · 4k 阅读

67 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #强化学习 #PPO #gym环境 #cleanrl

于 2022-05-09 14:07:09 首次发布

本文介绍了如何使用强化学习解决需要大量训练的问题，通过创建符合OpenAI gym API的自定义环境来模拟真实环境。重点讨论了环境设计中的动作空间、状态空间定义，以及奖励机制的重要性。在测试和优化环境中，提到了调整奖励机制以匹配实际问题的指数成本关系，并分享了将自定义环境注册到gym的方法。此外，文章还提及了在RL算法训练过程中的多环境并发优化，以提高仿真速度，并讨论了可能遇到的系统资源限制问题。

需求

要用强化学习(Reinforcement Learning)算法解决问题，需要百千万次的训练，真实环境一般不允许这么多次训练（时间太长、试错代价太大），需要开发仿真环境。OpenAI的gym环境是目前的标准，遵守其API写一个自定义的环境可以被各种强化学习算法无码调用。

gym API要求

分析gym的代码和文档，可以看出，一个环境至少应该包含动作空间(action space)、状态空间(observation space)定义，以及reset()、step()、render()、close()方法，代码结构如下：

from typing import Optional
import gym
from gym import spaces

class MyEnv(gym.Env):
    def __init__(self):
        self.observation_space = spaces.Box(
            -np.inf, np.inf, shape=(5,), dtype=np.float32
        )#5个浮点数状态空间

        self.action_space = spaces.Discrete(3)#0,1,2三个动作空间

    def step(self, action):
        pass

    def reset(self,
              *,
              seed: Optional[int] = None,
              return_info: bool = False,
              options: Optional[dict] = None):
        pass

    def render(self, mo