环境:
python: 3.12.8
ray: 2.40.0
gymnasium: 1.0.0
用 PPOConfig配置并创建算法,并训练, 保存checkpoint
from genericpath import exists
from ray.rllib.algorithms.ppo import PPOConfig
from ray.tune.logger import pretty_print
import os
algo = (
PPOConfig()
.env_runners(num_env_runners=1) ## 并行或分布式的几个进程
.resources(num_gpus=0)
.environment(env="CartPole-v1")
.build()
)
## 训练并保存 checkpoint
for i in range(5):
result = algo.train()
print(f"episode_{i}")
# print(pretty_print(result)) ## result中包含了许多信息,可以选择性的提取使用或打印
if i % 2 == 0:
checkpoint_dir = f"F:/codes/RLlib_study/outputs/checkpoint_episode_{i}"
os.makedirs(checkpoint_dir,exist_ok=True)
algo.save_checkpoint(checkpoint_dir)
print(f"saved checkpoint to {checkp

最低0.47元/天 解锁文章
786

被折叠的 条评论
为什么被折叠?



