[归纳]强化学习导论 - 第四章:动态规划

1.本章内容概要

动态规划(Dynamic Programming, DP)是在完全已知任务MDP形式的模型时,一类用来计算最优策略的方法。因为完全已知模型的假设和过大的计算开销,经典的DP方法在强化学习任务中的直接使用比较受限,但在理论上还是有重要的意义。DP为本书后续介绍的各种方法提供了必要的基础,实际上,所有这些方法不过是希望在降低计算开销及不依赖环境模型的前提下达到和DP同样的效果罢了。

我们通常假设环境是finite MDP(上一章介绍了finite MDP的含义)的。虽然DP思想也能应用到连续states/actions空间的问题,却只有一些特殊情况能得到精确解。一个常用的处理办法是把连续问题离散化,也就是把states和actions分段化(quantize)。第九章我们会专门讨论连续states/actions问题。

DP的核心思想,乃至RL的基础思想,都是基于value函数(上一章已详细介绍)的策略搜索和改进。在这章中,我们将展示DP方法是如何用来计算value函数的。只要我们得到了满足Bellman最优方程的最优值函数,我们实际上就得到了最优策略。DP方法则通过prediction/improvement的update操作不断逼近最优value函数。

2.策略评估(预测)

首先考虑如何计算任意给定策略的state-value函数 v π v_\pi vπ,在DP中,这叫做policy evaluation,或者prediction problem。上一章我们给出了state-value的Bellman方程:

v π ( s ) ≐ E π [ G t ∣ S t = s ] = E π [ R t + 1 + γ G t + 1 ∣ S t = s ] = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ E π [ G t + 1 ∣ ∣ S t + 1 = s ′ ] ] = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] \begin{aligned} v_\pi(s) & \doteq \mathbb{E}_\pi[G_t | S_t =s] = \mathbb{E}_\pi[R_{t+1} + \gamma G_{t+1} | S_t =s] \\ &= \sum_a \pi(a|s) \sum_{s',r} p(s',r | s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | |S_{t+1} = s'] \right] \\ &= \sum_a \pi(a|s) \sum_{s',r} p(s',r | s,a) \left[ r + \gamma v_\pi (s') \right] \end{aligned} vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s]=aπ(as)s,rp(s,rs,a)[r+γEπ[Gt+1St+1=s]]=aπ(as)s,rp(s,rs,a)[r+γvπ(s)]

如果环境的dynamics是完全已知的,则上式实际上是 ∣ S ∣ |S| S ∣ S ∣ |S| S元方程组,可以直接求解。但是当 ∣ S ∣ |S| S很大时直接求解这个方程组是不现实的,因此我们可以用迭代的方法逼近真实值,迭代公式为:

v k + 1 ( s ) ≐ E π [ R t + 1 + γ v k ( S t + 1 ) ∣ S t = s ] = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ v k ( s ′ ) ] \begin{aligned} v_{k+1}(s) & \doteq \mathbb{E}_\pi[R_{t+1} + \gamma v_k (S_{t+1}) | S_t =s] \\ &= \sum_a \pi(a|s) \sum_{s',r} p(s',r | s,a) \left[ r + \gamma v_k (s') \right] \end{aligned} vk+1(s)Eπ[Rt+1+γvk(St+1)St=s]=aπ(as)s,rp(s

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值