【强化学习】表格型方法 李宏毅 蘑菇书 第三章

本文主要针对查找表的强化学习方法表格型方法),讨论表格型方法是什么,他的常见类型和使用的场景常见的算法,这三个类型给具有一定基础知识的读者介绍表格方法。

主要参考李宏毅的蘑菇书,在线阅读链接
感谢王琦等人编写的网站,一切以他们为准,笔者夹杂了自己理解。
王琦,杨毅远,江季,Easy RL:强化学习教程,人民邮电出版社,https://github.com/datawhalechina/easy-rl, 2022.

复习一下上一篇,就是马尔科夫是什么,还有马尔科夫决策过程,强化学习的目的就是为了获取更好地策略。
策略最简单的表示是查找表(look-up table),即表格型策略(tabular policy)。使用查找表的强化学习方法称为表格型方法(tabular method),如蒙特卡洛、Q学习和Sarsa(后续会提到)。

表格型方法是什么

说表格型方法就得先提免模型和有模型是什么。

免模型和有模型

强化学习是一个与时间相关的序列决策的问题。马尔科夫决策过程实际就是一条序列逐步的决策,将每次可以选择几种动作分对应的岔路,再将可能导致的结果再分对应岔路,形成树结构。如下图。

马尔可夫决策过程四元组
有模型就是啥都知道,即这是一个确定的环境,马尔科夫决策过程是可知的,比较容易得到最优策略。

无模型(也被称为免模型)就是有一些未知数,也就是环境是未知的。 因为现实世界好多都是未知的,只可通过观测进行摸石头过河。

处在未知的环境里,也就是这一系列的决策的概率函数和奖励函数是未知的,这就是有模型与免模型的最大的区别。

免模型强化学习方法没有获取环境的状态转移和奖励函数,而是让智能体与环境进行交互,采集大量的轨迹数据,智能体从轨迹中获取信息来改进策略,从而获得更多的奖励。

至此,就可以开始说两种情况对应的表格是什么样的了:

有模型预测:Q表格

Q 表格是一张已经训练好的表格,这张表格就像是便可全是。通过查看这本手册,我们就知道在房钱环境状态下,什么动作的价值会高一点。 这张表格里面 Q 函数的意义就是我们选择了某个动作后,最后能不能达到最高的奖赏,就需要我们去计算在某个状态下选择某个动作,后续能够获得多少总奖励。

Q表格

如果可以预估未来的总奖励的大小,我们就知道在当前的状态下选择哪个动作价值更高。我们选择某个动作是因为这样未来可以获得的价值会更高。所以强化学习的目标导向性很强,环境给出的奖励是非常重要的反馈,它根据环境的奖励来做选择。

免模型预测:蒙特卡洛法

蒙特卡洛法就是掷骰子,主要通过采样得到很多次的结果,根据这个结果得到近似的概率。具体为:

特卡洛方法是基于采样的方法,给定策略 π,我们让智能体与环境进行交互,可以得到很多轨迹。每个轨迹都有对应的回报:
G t = r t + 1 + γ r t + 2 +

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值