环境配置:
python: 3.12.8
ray: 2.40.0
实践代码及注释:
import ray
from ray.rllib.algorithms.ppo import PPOConfig
from ray import train, tune
import torch
ray.init()
config = PPOConfig()
config = config.training(lr=tune.grid_search([0.01, 0.001]))
config = config.environment(env="CartPole-v1")
## episode_reward_mean 提示找不到, 应该改成了 episode_return_mean
# tune_config = tune.TuneConfig(metric="env_runners/episode_return_mean", mode="max") # "env_runners/episode_return_mean"
tuner = tune.Tuner(
"PPO", ## 这里放的是 tune.trainable的class, 是个agent类或策略类。
run_config = train.RunConfig(
stop = {'env_runners/episode_return_mean':10, ## episode_reward_mean 和 episode_return_mean 都会报错
"training_iteration":3}, ## 多个停止条件之间是或的关系, 是一个字典。
checkpoint_config =

最低0.47元/天 解锁文章
923

被折叠的 条评论
为什么被折叠?



