【莫烦python 强化学习】代码 笔记 Sarsa算法更新/思维决策 迷宫

本文探讨了在Maze环境中,Q-learning由于其off-policy特性,展现出更强的探索性,直接寻找奖励最高的路径,而Sarsa则更保守,在尝试中避免风险。通过Python代码实现的RL_brain模块展示了这两种算法的差异,Sarsa的学习方式导致它更为谨慎,不会盲目行动。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Q-learning 比 Sarsa 更勇敢(off-policy)探索性更强,直接找 reward 最大的方向,不怕进坑里,而 Sarsa 在不断尝试中保全自身,不断少踩地雷。

Q-learning 是先用新的状态能选择的最大Q值,更新q表后选择动作,更新q表时不考虑a_

Sarsa 是在更新q表之前就选择好了动作

1、maze_env.py

import numpy as np
import time
import sys
if sys.version_info.major == 2:
    import Tkinter as tk
else:
    import tkinter as tk


UNIT = 40   # pixels
MAZE_H = 4  # grid height
MAZE_W = 4  # grid width


class Maze(tk.Tk, object):
    def __init__(self):
        super(Maze, self).__init__()
        self.action_space = ['u', 'd', 'l', 'r']
        self.n_actions = len(self.action_space)
        self.title('maze')
        self.geometry('{0}x{1}'.format(MAZE_W * UNIT, MAZE_H * UNIT))
        self._build_maze()

    def _build_maze(self):
        self.canvas &
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值