【强化学习的数学原理】第03课-贝尔曼最优公式-笔记

学习资料:bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接:强化学习的数学原理 西湖大学 赵世钰


一、例子:如何改进策略?

下图是一个grid world的例子。要求:写出该例的贝尔曼方程、计算每个状态的state value、计算状态s1的action value。
在这里插入图片描述
因为该例非常简单,所以无需套贝尔曼方程的公式,直接根据“即时奖励”+“未来奖励”的思路就可以写出贝尔曼方程。贝尔曼方程如下:
在这里插入图片描述
假设 γ = 0.9 \gamma=0.9 γ=0.9, 联立方程组解方程,就可以解出每个状态的state value。结果为:
在这里插入图片描述
已知state value后,又可以计算出action value。这里的action value怎么算呢?因为例子比较简单,我们可以不套公式,而直接使用“即时奖励”+“未来奖励”的思路来计算。以下图中第三行 q π ( s 1 , a 3 ) q_{\pi}(s_1, a_3) qπ(s1,a3) 为例,在状态 s 1 s_1 s1 选择动作 a 3 a_3 a3 (向下走),所获得的即时奖励是0,未来奖励是 γ v π ( s 3 ) \gamma v_{\pi}(s_3) γvπ(s3)
在这里插入图片描述
到此,我们算出了状态s1的action value。对状态s1的策略进一步观察,可以发现,当前这个策略“s1-s2-s4”其实是不太好的,因为经过了forbidden area s2。 那么该如何改进这个策略呢?
策略的改进依赖于action value!
当前的策略为如下图所示。也就是说,a=a2 (往右走)的概率是1,往其他方向走的概率是0。
在这里插入图片描述
不过,根据我们刚刚算出来的action value。我们发现, q π ( s 1 , a 3 ) = 9 q_{\pi}(s_1, a_3) = 9 qπ(s1,a3)=9 是最大的,所以我们能不能把a3作为一个新的策略?答案是肯定的,因为action value越高,代表选择这个动作后可能获得的reward越大。从grid world中也可以看出,如果把s1的策略改成a3(向下走),不会遇到forbidden area,且可以顺利到达target area,确实是一个更好的策略。
所以,我们希望通过action value来改进策略。

二、最优策略和公式推导

1. 最优策略 π ∗ \pi^* π
state value 可以被用来衡量一个policy是好还是坏。如果现在有两个策略 π 1 \pi_1 π1 π 2 \pi_2 π2,对于所有的状态 s s s π 1 \pi_1 π1 的state value都大于 π 2 \pi_2 π2 的state value,那么就可以认为策略 π 1 \pi_1 π1 是好于策略 π 2 \pi_2 π2</

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值