深度强化学习探索:从游戏到智能系统
1. 深度强化学习基础实践
1.1 环境搭建与随机行动
在深度强化学习的实践中,我们首先要创建一个环境。可以使用以下代码完成环境的初始化,并进行200次随机行动的模拟:
import numpy as np
import gym
np.random.seed(42)
env = gym.make('CartPole-v0')
env.seed(42)
nb_actions = env.action_space.n
input_shape = (1, env.observation_space.shape[0])
observation = env.reset()
for t in range(200):
env.render()
act = env.action_space.sample()
obs, rwrd, done, info = env.step(act)
if done:
print("Episode concluded after %i timesteps" % (t+1))
break
env.close()
这段代码的执行步骤如下:
1. 设置随机种子,确保结果的可重复性。
2. 创建 CartPole-v0 环境,并获取环境的基本信息,如动作数量和输入形状。
3. 重置环境,开始模拟。
4. 在200次迭代中,每次随机选择一个动作执行,并获取新的状态、奖励、是否结束等信息。
5
超级会员免费看
订阅专栏 解锁全文
2803

被折叠的 条评论
为什么被折叠?



