3、强化学习与PyTorch入门

强化学习与PyTorch入门

1. 强化学习初步实践

1.1 视频生成

重新运行步骤3到步骤5的代码,在一个回合结束后,会在 video_dir 文件夹中生成一个 .mp4 文件,视频时长较短,大约1秒。

1.2 状态数组含义

状态数组中的四个浮点数分别代表:
| 序号 | 含义 | 范围 | 终止条件 |
| ---- | ---- | ---- | ---- |
| 1 | 小车位置 | -2.4 到 2.4 | 超出此范围回合终止 |
| 2 | 小车速度 | - | - |
| 3 | 杆子角度 | - | 小于 -0.209(-12度)或大于 0.209(12度)回合终止 |
| 4 | 杆子顶端速度 | - | - |

动作取值为 0 或 1,分别对应将小车向左和向右推。在回合终止前,每个时间步的奖励为 +1,总奖励即为时间步数。

1.3 多回合模拟

为评估智能体的性能,可模拟多个回合并计算平均总奖励。以下是具体代码:

n_episode = 10000
total_rewards = []
for episode in range(n_episode):
    state = env.reset()
    total_reward = 0
    is_done = False
    while not is_done:
        action = env.acti
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值