ray-rllib使用实践 -- 1

环境: 

        python: 3.12.8

        ray: 2.40.0

        gymnasium: 1.0.0

用 PPOConfig配置并创建算法,并训练, 保存checkpoint 

from genericpath import exists
from ray.rllib.algorithms.ppo import PPOConfig 
from ray.tune.logger import pretty_print 
import os 

algo = (
    PPOConfig()
    .env_runners(num_env_runners=1) ## 并行或分布式的几个进程
    .resources(num_gpus=0)
    .environment(env="CartPole-v1")
    .build()
)

## 训练并保存 checkpoint 
for i in range(5):
    result = algo.train()
    print(f"episode_{i}")
    # print(pretty_print(result))  ## result中包含了许多信息,可以选择性的提取使用或打印

    if i % 2 == 0:
        checkpoint_dir = f"F:/codes/RLlib_study/outputs/checkpoint_episode_{i}"
        os.makedirs(checkpoint_dir,exist_ok=True)
        
        algo.save_checkpoint(checkpoint_dir)
        print(f"saved checkpoint to {checkp
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值