Chapter 4 Dynamic Programming

最新推荐文章于 2019-10-16 17:17:40 发布

原创最新推荐文章于 2019-10-16 17:17:40 发布 · 347 阅读

0 ·

CC 4.0 BY-SA版权

强化学习笔记同时被 2 个专栏收录

10 篇文章

订阅专栏

游戏AI

10 篇文章

订阅专栏

本文深入解析了强化学习中的动态规划(DP)方法，包括策略评估、策略改进及迭代策略等核心概念，并探讨了策略迭代与值迭代两种算法的实现细节与应用场景。

本笔记参考《Reinforcement Learning: An Introduction》和
David Silver的公开课及其ppt

David Silver的课程在Tabular Soluction上介绍的比较多。可以配合David Silver的课程来理解《Reinforcement Learning: An Introduction》这本书的内容

DP指的是一组算法，可以用来计算最佳策略，给定一个完美的model作为马尔科夫决策过程（MDP）[这是必须的]。当然之后介绍的算法不是用DP解的，它只是给后面要介绍的方法基础理论

一定要注意DP解问题的必要条件。我们假设environment是finite MDP。其中我们假设它的state,action以及reward sets, $S,A,\text{and,}R$ 是有限的，而且它的动态性是通过一系列的概率 $p(s^\prime, r|s,a)$ 给出来的

4.2 Policy Evaluation (Prediction)

Policy evaluation Estimate $v_{\pi}$
Iterative policy evaluation

Policy Evaluation就是对于任意policy $\pi$ ，计算出state-value function $v_{\pi}$ 。这也被看成prediction problem
$Iterative Policy Evaluation, for estimating $V \approx v_{\pi}$$

4.2 Policy Improvement

Policy improvement Generate $\pi^\prime \geq \pi$
Greedy policy improvement

policy improvement theorem
假设有 $\pi^\prime$ 比 $\pi$ 更好

q π (s, π' (s)) \geq v π (s) v π' (s) \geq v π (s)

$q_{\pi}(s,\pi^\prime(s)) \geq v_{\pi}(s) \\ v_{\pi^\prime}(s) \geq v_{\pi}(s)$
证明：

v π (s) ⋮ \leq q π (s, π' (s)) = E [R t + 1 + γ v π (S t + 1) | S t = s, A t = π' (s)] = E π' [R t + 1 + γ v π (S t + 1) | S t = s] \leq E π' [R t + 1 + γ q π (S t + 1, π' (S t + 1)) | S t = s] = E π' [R t + 1 + γ E π' [R t + 2 + γ v π (S t + 2) | S t + 1] | S t = s] = E π' [R t + 1 + γ R t + 2 + γ 2 v π (S t + 2) | S t = s] \leq E π' [R t + 1 + γ R t + 2 + γ 2 R t + 3 + γ 3 v π (S t + 3) | S t = s] \leq E π' [R t + 1 + γ R t + 2 + γ 2 R t + 3 + γ 3 R t + 4 + \dots | S t = s] = v π' (s) .

$\begin{align*} v_{\pi}(s) & \leq q_{\pi}(s,\pi^\prime(s)) \\ & = \mathbb{E}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s,A_t=\pi^\prime(s)]\\ & = \mathbb{E}_{\pi^\prime}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s]\\ & \leq \mathbb{E}_{\pi^\prime}[R_{t+1}+\gamma q_{\pi}(S_{t+1},\pi^\prime(S_{t+1}))|S_t=s] \\ & = \mathbb{E}_{\pi^\prime}[R_{t+1}+\gamma \mathbb{E}_{\pi^\prime}[R_{t+2}+\gamma v_{\pi}(S_{t+2})|S_{t+1}]|S_t=s] \\ & = \mathbb{E}_{\pi^\prime}[R_{t+1}+\gamma R_{t+2}+\gamma^2 v_{\pi}(S_{t+2})|S_t=s]\\ & \leq \mathbb{E}_{\pi^\prime}[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\gamma^3 v_{\pi}(S_{t+3})|S_t=s]\\ \vdots\\ & \leq \mathbb{E}_{\pi^\prime}[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\gamma^3 R_{t+4}+\cdots|S_t=s]\\ & = v_{\pi^\prime}(s). \end{align*}$
很自然的就会想到使用greedy policy在每个状态s根据

qπ(s,a)qπ(s,a) $q_{\pi}(s,a)$ 选择最好的a，从而得到新的policy

π′π′ $\pi^\prime$

π' (s) ≐ a r g max a q π (s, a) = a r g max a E [R t + 1 + γ v π (S t + 1) | S t = s, A t = a] = a r g max a \sum s', r p (s', r | s, a) [r + γ v π (s')]

$\begin{align*} \pi^\prime(s) & \doteq \underset{a}{arg\max} q_{\pi}(s,a) \\ & = \underset{a}{arg\max} \mathbb{E}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s,A_t=a]\\ & = \underset{a}{arg\max} \sum_{s^\prime,r} p(s^\prime,r|s,a)[r+\gamma v_{\pi}(s^\prime)] \end{align*}$

4.3 Policy Iteration

把Policy Evaluation (Prediction)和Policy Improvement两个过程迭代进行，最终获得收敛的最佳policy

π 0 \to E v π 0 \to I π 1 \to E v π 1 \to I π 2 \to E \dots π * \to E v *

$\pi_0 \overset{E}{\to} v_{\pi_0} \overset{I}{\to} \pi_1 \overset{E}{\to} v_{\pi_1} \overset{I}{\to} \pi_2 \overset{E}{\to} \cdots \pi_* \overset{E}{\to} v_*$

注意上图的迭代是Policy Evaluation和Policy Improvement交替进行的

这个过程被证明是收敛的，最后一定可以收敛到最佳的policy

4.4 Value Iteration

Value Iteration不像policy iteration，没有显式的 policy evaluation。policy iteration的一个缺点是每次迭代都要进行完整的policy evaluation，这非常的耗时。

policy evaluation的步骤可以被截取为少许的几步，而且还保证policy iteration的收敛。一个特殊的例子就是在仅进行一个sweep后停止。
Value Iteration
在每个sweep中，执行一个sweep的policy evaluation和一个sweep的policy improvement
注意与policy iteration的区别 $p(s^\prime,r|s,\pi(s))$ 与 $p(s^\prime,r|s,a)$

Problem	Bellman Equation	Algorithm
Prediction	Bellman Expectation Equation	Iterative Policy Evaluation
Control	Bellman Expectation Equation + Greedy Policy Improvement	Iterative Policy Evaluation
Control	Bellman Optimality Equation	Value Iteration