- task 02
- 有模型与免模型的区别是
是否是已知的
- 预测的目标是获得状态转移函数,控制的目标是获得最优策略函数
- 蒙特卡洛方法的局限性:只适用于有终止状态的马尔可夫决策过程
- 首次访问蒙特卡洛(FVMC)与每次访问蒙特卡洛(EVMC)的区别
- 个人认为,FVMC是在整个决策树从头到尾下来的一根决策路径,而EVMC是会考虑到每个分叉的所有情况。FVMC具有无偏性和收敛快的特点,而EVMC则更加精确。
- 首次访问蒙特卡洛(FVMC)与每次访问蒙特卡洛(EVMC)的区别
- 时序差分估计(TD)
- 可适用于无终止状态的马尔可夫决策过程
- 可以在线学习,走一步就可以更新
- 步数可以是n步,这样做就可以控制学习的速度,步数越小,学习的速度就越快,反之则越慢。也叫
算法
- 免模型控制
- Q-learning算法
- 通过获得Q(动作价值函数)表格,来获得最优的V(状态价值函数)
- 采用的算法是
算法来均衡探索和利用的动作。
- Sarsa算法
- Sarsa算法与Q-learning算法的区别就是更新公式中使用直接的下一状态的动作价值函数
而不是下一个状态的最大Q值。
- Sarsa算法与Q-learning算法的区别就是更新公式中使用直接的下一状态的动作价值函数
- 记录于2023/11/18
- Q-learning算法
- 有模型与免模型的区别是
datawhale深度强化学习笔记02
最新推荐文章于 2025-05-29 13:13:18 发布