强化学习高级技巧与超参数优化
1. 策略客户端的使用
首先,我们来看一个策略客户端的代码示例:
import gym
from ray.rllib.env.policy_client import PolicyClient
from maze_gym_env import GymEnvironment
if __name__ == "__main__":
env = GymEnvironment()
client = PolicyClient("http://localhost:9900", inference_mode="remote")
obs = env.reset()
episode_id = client.start_episode(training_enabled=True)
while True:
action = client.get_action(episode_id, obs)
obs, reward, done, info = env.step(action)
client.log_returns(episode_id, reward, info=info)
if done:
client.end_episode(episode_id, obs)
exit(0)
上述代码的执行步骤如下:
1. 启动一个策略客户端,以远程推理模式连接到服务器地址。
2. 告知服务器开始一个新的回合。 <
超级会员免费看
订阅专栏 解锁全文
4693

被折叠的 条评论
为什么被折叠?



