前面介绍的入门实践都是基于 ray.rllib 内置的环境、模型和算法执行的,在应对具体任务时, 需要自定义交互环境、改进网络模型或者算法的损失函数。从本博客开始将逐个介绍。
在ray.rllib中使用自定义的环境,主要分为三步:
1) 创建自定义的环境类
2) 向 ray 注册自定义的环境
3) 在算法配置和训练中使用环境
环境配置:
torch==2.5.1
ray==2.10.0
ray[rllib]==2.10.0
ray[tune]==2.10.0
ray[serve]==2.10.0
numpy==1.23.0
python==3.9.18
一、 创建自定义的环境类
import gymnasium as gym
from gymnasium import spaces
import ray
import numpy as np
from ray.rllib.algorithms.ppo import PPO, PPOCon

最低0.47元/天 解锁文章
820

被折叠的 条评论
为什么被折叠?



