强化学习_06_pytorch-PPO2实践(ALE/Breakout-v5)

最新推荐文章于 2025-05-21 14:13:18 发布

Scc_hy

最新推荐文章于 2025-05-21 14:13:18 发布

阅读量703

点赞数 4

分类专栏：强化学习文章标签： pytorch 人工智能 python 深度学习强化学习 RL

此文为笔者原创，如需转载请联系笔者:hyscc1994@foxmail.com

本文链接：https://blog.youkuaiyun.com/Scc_hy/article/details/143608500

版权

一、环境适当调整

数据收集：RecordEpisodeStatistics
进行起始跳过n帧：baseSkipFrame
一条生命结束记录为done:EpisodicLifeEnv
得分处理成0或1:ClipRewardEnv
叠帧: FrameStack
- 图像环境的基本操作，方便CNN捕捉智能体的行动
向量空间reset处理修复
- gym.vector.SyncVectorEnv: 原始代码中的reset是随机的
- 继承重写的spSyncVectorEnv方法，支持每个向量的环境的seed一致，利于同一seed下环境的训练


class spSyncVectorEnv(gym.vector.SyncVectorEnv):
    """
    step_await _terminateds reset
    """
    def __init__(
        self,
        env_fns: Iterable[Callable[[], Env]],
        observation_space: Space = None,
        action_space: Space = None,
        copy: bool = True,
        random_reset: bool = False,
        seed: int = None
    ):
        super().__init__(env_fns, observation_space, action_space, copy)
        self.random_reset = random_reset
        self.seed = seed
    
    def step_wait(self) -> Tuple[Any, NDArray[Any], NDArray[Any], NDArray[Any], dict]:
        """Steps through each of the environments returning the batched results.

        Returns:
            The batched environment step results
        """
        observations, infos = [], {
   }
        for i, (env, action) in enumerate(zip(self.envs, self._actions)):
            (
                observation,
                self._rewards[i],
                self._terminateds[i]