强化学习学习笔记(3)---贝尔曼最优公式

本章主要内容

关键概念:最优状态值(optimal state value)和最优策略( optimal policy);
函数工具:贝尔曼最优方程(the Bellman optimality equation (BOE))

一、激励性例子(Motivating examples)

第一步:根据实例写出每个状态对应的贝尔曼方程:

第二步:求每个状态对应的状态值(state value),假定这里的\gamma=0.9,先由第四个式子求s4的状态值(state value),再求s1,s2,s3的状态值(state value):

第三步:根据上一步求出的状态值(state value),再求出动作值(action value),这里以s1状态为例,求s1状态时各个动作的动作值(action value),每一个状态都有5个可采取的动作,故有相应的5个动作值(action value),而每一个动作action也对应着一个策略和状态值(state value):

总结:从上述求解得到的动作值(action value)可知,在采取动作a3的时候值是最大的,因此这个策略也是最优的。采取动作a3的时候值是最大的原因是s3状态是一个可进入的网格。

改进:在上述例子中,可以看到在s1状态的时候,当前的策略是:

通过在第二步和第三步对状态值(state value)和动作值(action value)求解并对比之后可知,在s1状态时,采取动作a3的策略是最优的,因此我们选择一个新的策略(式子中的a^{*}就是得到最优策略的动作,在本例中是a3):

总结:

  1. 动作值(action value)就是评估动作的主要参数,如果选择一个动作action之后,它对应的动作值action value很大,那么证明可以得到更多的reward,相应的策略也更好;
  2. 在计算过程中,利用不断地迭代,就可以得到一个最优策略。就是首先对每个状态都选择 action value 最大的 action,选择完了一次,然后再来一次迭代得到一个新的策略,再迭代得到一个新的策略,最后那个策略一定会趋向一个最优的策略。

二、最优策略(Optimal policy)

状态值(state value) 是评估一个策略是否最优,如果有一个策略,它的状态值比在这个状态所有其他策略的状态值都要大,那么这个策略就是最优策略:

三、贝尔曼最优方程(Bellman optimality equation (BOE))

贝尔曼最优方程:
方程中p(r|s, a), p(s'|s, a) 已知;v(s), v(s‘)未知要计算得到;π(s) 未知(贝尔曼公式依赖于一个给定的 π,而贝尔曼最优公式的 π 没有给定,需要求解)。 

贝尔曼最优方程的矩阵向量形式Bellman optimality equation (matrix-vector form):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值