3、强化学习与PyTorch入门

最新推荐文章于 2025-11-02 15:01:25 发布

Light

最新推荐文章于 2025-11-02 15:01:25 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch强化学习实战文章标签：强化学习 PyTorch 随机搜索策略

本文链接：https://blog.youkuaiyun.com/Light/article/details/154633225

PyTorch强化学习实战专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习与PyTorch入门

1. 强化学习初步实践

1.1 视频生成

重新运行步骤3到步骤5的代码，在一个回合结束后，会在 video_dir 文件夹中生成一个 .mp4 文件，视频时长较短，大约1秒。

1.2 状态数组含义

状态数组中的四个浮点数分别代表：
| 序号 | 含义 | 范围 | 终止条件 |
| ---- | ---- | ---- | ---- |
| 1 | 小车位置 | -2.4 到 2.4 | 超出此范围回合终止 |
| 2 | 小车速度 | - | - |
| 3 | 杆子角度 | - | 小于 -0.209（-12度）或大于 0.209（12度）回合终止 |
| 4 | 杆子顶端速度 | - | - |

动作取值为 0 或 1，分别对应将小车向左和向右推。在回合终止前，每个时间步的奖励为 +1，总奖励即为时间步数。

1.3 多回合模拟

为评估智能体的性能，可模拟多个回合并计算平均总奖励。以下是具体代码：

n_episode = 10000
total_rewards = []
for episode in range(n_episode):
    state = env.reset()
    total_reward = 0
    is_done = False
    while not is_done:
        action = env.acti