强化学习知识要点与编程实践(3)——不基于模型的预测


本文未经许可禁止转载,如需转载请联系笔者

0. 前言

在前一章: 动态规划寻找最优策略中,已经讲述了在已知状态转移概率时,如何使用 策略评估策略迭代价值迭代 的方法来求解价值函数,或寻找最优价值函数与最优策略。

本章的重点在于未知环境的状态转移概率,就是在一个状态下采取一个动作,并不知道自己可能会转移到什么样的状态,这就是model-free

与前一章: 动态规划寻找最优策略的思路相同,model-free 也需要解决预测和控制这两个问题。而本章聚焦于策略评估,也就是解决预测问题,下一章解决控制问题,找到最优策略和最优价值函数。

本章分为三个部分,将分别从理论上阐述 基于完整采样的蒙特卡罗强化学习基于不完整采样的时序差分强化学习 以及 介于两者之间的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值