Reinforcement Learning - An Introduction强化学习读书笔记 Ch3.4-Ch3.8

3.4 分幕式和持续性任务的统一表示法

强化学习可以分成分幕式任务(交互可以被分解成单独的幕序列),和持续性任务。
分幕式任务在数学上更容易表示,因为在每一幕中,每个动作只影响到之后收到的有限个的收益。
为了简化表示,在分幕式任务中不区分幕,且用统一的表示方法来表示分幕式和持续性两种学习方法的收益函数:
在这里插入图片描述
在分幕式任务中收益定义为有限项的总和,在持续性任务中收益定义为无限项的总和,而在分幕式任务中,假设终止幕的时刻为T,只需要设置RT+1,RT+2,…都为0,就可以把两种方法的收益统一表示为上图形式。

3.5 策略和价值函数

值函数是状态(或者状态与动作的二元组)的函数,用来评估agent在给定状态(或者状态与动作的二元组)的好坏,这种好坏是用回报的期望来衡量的,并且agent的期望收益又取决于所选择的动作,所以值函数是与特定的行为方式相关的,称之为策略。
策略是状态到每个动作的选择概率之间的映射, π ( a ∣ s ) \pi(a|s) π(as)就是指在策略 π \pi π的情况下位于状态 s s s的时候选择动作 a a a的概率,是条件概率的表示形式。
价值函数是从状态 s s s开始,按照策略 π \pi π进行决策所获得的回报的期望值,记为 v π ( s ) v_\pi(s) vπ(s)
价值为在策略 π \pi π的情况下位于状态 s s s的时候选择动作 a a a的价值,记为 q π ( s , a ) q_\pi(s,a) qπ(s,a)
关于值函数和价值的数学定义如下:
在这里插入图片描述
蒙特卡洛方法对每个遇到的状态记录该状态后的实际回报的平均值,随着状态出现的次数接近无限大,这个平均值会收敛到状态的价值 v π ( s ) v_\pi(s) vπ(s),为每个状态的每个动作也保留单独的平均值,会收敛到 q π ( s , a ) q_\pi(s,a) qπ(s,a),该方法从真实收益的多个随机样本中求平均值。
贝尔曼方程
在这里插入图片描述
第一步中的递归形式是由以下方程推出的:
在这里插入图片描述
而进一步的求和推导可以从下面的方程中得来:
在这里插入图片描述
即可以理解成,目前状态s的价值应该是,在该状态下采取动作a的概率*动作a之后跳转到的状态s’的价值,并对于a求和,即如下图的一种类似高数求偏导的链式结构:
在这里插入图片描述
黑色圆表示一个“状态-动作”二元组,对每一个动作,环境会根据其概率分布函数以一个后继状态s和对应的收益r作为相应,而收益需要对所有的动作a以其概率进行加权平均,即得到上面的式子。为方便记忆,可以理解成该期望是同时与 a , s , r a,s,r a,s,r三元组有关的,需要分别求和来消除掉这个随机变量才能得到价值,为了消除动作a可以对所有动作概率进行求和,为了消除s和r就对后继的状态和价值进行求和即可。

3.6 最优策略和最优价值函数

值函数定义了策略上的一个偏序关系,也就是说一个策略要优于另外一个策略,需要在所有状态上的期望回报都大于另外一个策略,也就是对于 ∀ s ∈ S , π ≥ π ′ , v π ( s ) ≥ v π ′ ( s ) \forall s\in S,\pi\ge\pi',v_\pi(s)\ge v_\pi'(s) sS,ππ,vπ(s)vπ(s).
最优策略不劣于其他所有策略,可能不止一个,用 π ∗ \pi_* π来表示。
最优状态价值函数是指所有的最优策略会共享相同的状态价值函数,记为 v ∗ v_* v
最优动作价值函数是指所有的最优策略会在每个状态的时候每个动作的最优价值,记为 q ∗ q_* q
在这里插入图片描述在这里插入图片描述
而根据之前已经手写证明的递推公式,对于“状态-动作”二元组 ( s , a ) (s,a) (s,a),其价值可以用回报期望来表示,而回报期望又可以表示成递归形式而与下一状态的最优状态价值关联起来,以此来将最优状态价值函数和最优动作价值函数关联起来,也就是:
在这里插入图片描述

贝尔曼最优方程

由于满足贝尔曼方程,在最优策略下,各个状态的价值一定等于这个状态下的最优动作的期望回报(两方程的等式右边都是期望回报)。
关于 v ∗ v_* v的贝尔曼最优方程:
在这里插入图片描述在这里插入图片描述
该方程与贝尔曼方程的区别就是,对于状态s能够采取的不同动作a,贝尔曼方程是对于所有动作a进行概率的加权平均,而贝尔曼最优方程是找到能使得状态价值最大的动作a。
关于 q ∗ q_* q的贝尔曼最优方程:
在这里插入图片描述在这里插入图片描述
对于最优动作价值函数 v ∗ v_* v而言,单步贪心之后,到达的最好动作一定是全局最优动作,其本身已经包含了未来所有可能行为的回报影响。可以将最优的长期回报期望值转换为每个状态对应的一个当前局部量的计算。
而对于最优状态价值函数 q ∗ q_* q而言,不需要单步搜索,只需要在当前找到使得 q ∗ ( s , a ) q_*(s,a) q(s,a)最大的动作a就可以了。
动作价值函数有效地保存着所有单步搜索的结果,将最优的长期回报的期望值表达为对一个的“动作-状态”二元组的一个当前局部量。

显示求解贝尔曼最优方程是找到最优策略的一个方法,但是其求解至少依赖于三条在实际情况下很难满足的条件:

  1. 准确知道环境的动态变化特性
  2. 有足够的的计算资源来求解所有的可能性
  3. 马尔科夫性质

而通过近似贝尔曼最优方程的决策方法,往往比较有效,例如使用启发式的搜索方法来对公示右侧进行一定深度的展开,并用启发式评估函数来预测叶节点的 v ∗ v_* v可以很大程度地减少计算量。

3.7 最优性和近似算法

计算复杂度和存储容量是在真实问题中很重要的两个约束条件,使用表格型方法可以解决状态集合小而有限的问题。
在状态很多的问题中,值函数常常采用近似算法,通常使用紧凑的参数化函数表示方法。
强化学习在on-policy问题中,使用近似算法,常常会对于经常出现的状态集合花更多的努力去学习好的决策,而代价就是对不常出现的状态的学习力度不够,这是区分强化学习和其他解决MDP问题的近似方法的一个重要判断依据。

3.8 本章小结

本章主要引入了马尔科夫决策过程,并且第一次比较直接地给出了强化学习的各个概念的数学表示形式,并且给出了并且经典的贝尔曼方程及其推导过程,用了几个简单的例子来解释了MDP的具体实施过程,并且提出了贝尔曼最优方程的难实施性,并提出了近似算法的概念。
本章的几个主要概念:

  1. 动作,状态,收益,决策。
  2. MDP过程。
  3. 期望回报的表示形式。
  4. 最优价值函数的两种形式。
  5. 贝尔曼方程和贝尔曼最优方程的推导和理解。
  6. 完备性和近似性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值