datawhale深度强化学习笔记02

本文讨论了模型预测与免模型控制在马尔可夫决策过程中的应用,比较了蒙特卡洛方法(FVMC和EVMC)、时序差分估计(TD)、Q-learning与Sarsa算法的区别,强调了步数对学习速度的影响以及探索与利用的平衡策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • task 02
    • 有模型与免模型的区别是p(s'|s,a)是否是已知的
    • 预测的目标是获得状态转移函数,控制的目标是获得最优策略函数
    • 蒙特卡洛方法的局限性:只适用于有终止状态的马尔可夫决策过程
      • 首次访问蒙特卡洛(FVMC)与每次访问蒙特卡洛(EVMC)的区别
        • 个人认为,FVMC是在整个决策树从头到尾下来的一根决策路径,而EVMC是会考虑到每个分叉的所有情况。FVMC具有无偏性和收敛快的特点,而EVMC则更加精确。
    • 时序差分估计(TD)
      • 可适用于无终止状态的马尔可夫决策过程
      • 可以在线学习,走一步就可以更新
      • 步数可以是n步,这样做就可以控制学习的速度,步数越小,学习的速度就越快,反之则越慢。也叫TD(\lambda)算法
    • 免模型控制
      • Q-learning算法
        • 通过获得Q(动作价值函数)表格,来获得最优的V(状态价值函数)
        • 采用的算法是\epsilon-greedy算法来均衡探索和利用的动作。
      • Sarsa算法
        • Sarsa算法与Q-learning算法的区别就是更新公式中使用直接的下一状态的动作价值函数Q(s_{t+1},a_{t+1})而不是下一个状态的最大Q值。
      • 记录于2023/11/18
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值