强化学习：从头开始看 Q-Learning + FrozenLake-v1

最新推荐文章于 2025-06-06 19:14:47 发布

waterHBO

最新推荐文章于 2025-06-06 19:14:47 发布

阅读量585

点赞数 20

分类专栏：强化学习 python 文章标签：深度学习人工智能 python

本文链接：https://blog.youkuaiyun.com/waterHBO/article/details/146096090

版权

从头开始看 Q-Learning + FrozenLake-v1

RL 强化学习，读书，看视频教程，都是一知半解。
所以找份代码，向 GPT 提问，尽量把每一行代码都搞懂。不懂的地方，就是问。
最后整理一下聊天记录，单独保存为一个文件，发布出去，然后最近经常看。
gym 有N 个环境， RL 有 M 个算法。此文仅仅是： 1 / (M * N)

下面的问题，都是围绕的代码是：

import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt


def run(episodes, img_name):
    rng = np.random.default_rng(1)  # 随机种子？

    env = gym.make('FrozenLake-v1', map_name="4x4", is_slippery=False, render_mode=None)

    #  说白了，q-table 记录的就是： 👉「在第 X 个格子，往 Y 方向走，能有多大收益。」
    q = np.zeros((env.observation_space.n, env.action_space.n))
    print(q.shape) # 16, 4

    learning_rate_a = 0.9      # alpha
    discount_factor_g =  0.9   # gamma

    # epsilon， 探索率， 随机率，ε-贪婪策略参数
    # ε 越大，随机成分越多，探索越多。
    # “ε”（希腊字母 epsilon，读作「艾普西龙」）。
    # 假如 epsilon = 0.2， 那么 20% 的时间， 随机选择动作， 80% 的时间， 选择 q-table 给出的最优动作。
    epsilon = 1                  # 1 = 100% 随机选择

    # 训练多少轮？  1 /  0.0001 = 10,000
    # 其实这个参数，是控制 ε 衰减速度 的参数。
    # 因为，每一轮的结尾都需要执行：
    # epsilon = max(epsilon - epsilon_decay_rate, 0)，
    # 即， 每一轮减少 0.0001
    epsilon_decay_rate = 0.0001

    # 统计一下训练的效果。
    rewards_per_episode = np.zeros(episodes)

    # 训练多少轮？比如 15000 轮。
    for i in range(episodes):