【莫烦python 强化学习】代码笔记 Sarsa算法更新/思维决策迷宫

今天也还活着

于 2024-01-12 11:03:01 发布

阅读量537

点赞数 10

分类专栏：强化学习文章标签：笔记 python

本文链接：https://blog.youkuaiyun.com/qq_49696822/article/details/135547287

版权

本文探讨了在Maze环境中，Q-learning由于其off-policy特性，展现出更强的探索性，直接寻找奖励最高的路径，而Sarsa则更保守，在尝试中避免风险。通过Python代码实现的RL_brain模块展示了这两种算法的差异，Sarsa的学习方式导致它更为谨慎，不会盲目行动。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Q-learning 比 Sarsa 更勇敢（off-policy）探索性更强，直接找 reward 最大的方向，不怕进坑里，而 Sarsa 在不断尝试中保全自身，不断少踩地雷。

Q-learning 是先用新的状态能选择的最大Q值，更新q表后选择动作，更新q表时不考虑a_

Sarsa 是在更新q表之前就选择好了动作

1、maze_env.py

import numpy as np
import time
import sys
if sys.version_info.major == 2:
    import Tkinter as tk
else:
    import tkinter as tk


UNIT = 40   # pixels
MAZE_H = 4  # grid height
MAZE_W = 4  # grid width


class Maze(tk.Tk, object):
    def __init__(self):
        super(Maze, self).__init__()
        self.action_space = ['u', 'd', 'l', 'r']
        self.n_actions = len(self.action_space)
        self.title('maze')
        self.geometry('{0}x{1}'.format(MAZE_W * UNIT, MAZE_H * UNIT))
        self._build_maze()

    def _build_maze(self):
        self.canvas &