Bellman方程求解

这部分内容,由于所看书籍的精彩易懂的讲解,所以将图片放入:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
策略梯度的两种理解:

  1. 策略梯度在经过图3.9之后,不需要像3.6, 3.7那样求贝尔曼方程,而是直接到达表3.8,然后找出新的策略,与随机策略进行比较,然后更新。

  2. 策略梯度在进行随机化策略 (A->0, B->1, C->0) 之后,根据表3.5计算出来Q(A,0),Q(B,1),Q(C,0)来到达表3.9,判断3.9与初始的表之差是否在阈值之内,如果不在,按照策略 (A->0, B->1, C->0),根据表3.5计算Q(A,0),Q(B,1),Q(C,0)生成新的值表,再进行判断。当条件满足的时候,到达表3.8,找到新的策略。当策略不发生变化时,即为最优策略。

第一种理解是根据上图的字面意思,第二种理解是根据程序。目前比较赞成第二种理解方法。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值