强化学习与PyTorch入门
1. 强化学习初步实践
1.1 视频生成
重新运行步骤3到步骤5的代码,在一个回合结束后,会在 video_dir 文件夹中生成一个 .mp4 文件,视频时长较短,大约1秒。
1.2 状态数组含义
状态数组中的四个浮点数分别代表:
| 序号 | 含义 | 范围 | 终止条件 |
| ---- | ---- | ---- | ---- |
| 1 | 小车位置 | -2.4 到 2.4 | 超出此范围回合终止 |
| 2 | 小车速度 | - | - |
| 3 | 杆子角度 | - | 小于 -0.209(-12度)或大于 0.209(12度)回合终止 |
| 4 | 杆子顶端速度 | - | - |
动作取值为 0 或 1,分别对应将小车向左和向右推。在回合终止前,每个时间步的奖励为 +1,总奖励即为时间步数。
1.3 多回合模拟
为评估智能体的性能,可模拟多个回合并计算平均总奖励。以下是具体代码:
n_episode = 10000
total_rewards = []
for episode in range(n_episode):
state = env.reset()
total_reward = 0
is_done = False
while not is_done:
action = env.acti
超级会员免费看
订阅专栏 解锁全文
654

被折叠的 条评论
为什么被折叠?



