开源项目 invalid-action-masking 使用教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00244/article/details/141236748

开源项目 invalid-action-masking 使用教程

invalid-action-maskingSource Code for A Closer Look at Invalid Action Masking in Policy Gradient Algorithms项目地址:https://gitcode.com/gh_mirrors/in/invalid-action-masking

项目介绍

invalid-action-masking 是一个开源项目，旨在研究策略梯度算法中无效动作掩蔽的影响。该项目包含源代码，用于复现论文《A Closer Look at Invalid Action Masking in Policy Gradient Algorithms》中的结果。论文探讨了在深度强化学习（DRL）算法中，如何处理根据游戏规则可能无效的动作，并提供了理论依据和实验证明。

项目快速启动

环境准备

首先，确保你已经安装了以下依赖：

Python 3.7 或更高版本
Poetry（用于依赖管理）

安装步骤

克隆项目仓库：

git clone https://github.com/vwxyzjn/invalid-action-masking.git
cd invalid-action-masking

使用 Poetry 安装依赖：
```
poetry install
```

运行示例代码：

import gym
from invalid_action_masking import InvalidActionMaskingEnv

env = gym.make('CartPole-v1')
env = InvalidActionMaskingEnv(env)

observation = env.reset()
for _ in range(1000):
    env.render()
    action = env.action_space.sample()  # 这里可以替换为你的策略
    observation, reward, done, info = env.step(action)

    if done:
        observation = env.reset()
env.close()