强化学习导论 -章4 动态规划_随机动态规划强化学习-优快云博客

本文链接：https://blog.youkuaiyun.com/liuhui244/article/details/143753544

强化学习中的动态规划方法

通过上一章的学习，我们已经了解了DP方法是如何进行价值函数的动态规划的

1. 动态规划概述

动态规划(Dynamic Programming, DP)是求解强化学习问题的基础方法之一。它要求我们有完整的环境模型(MDP模型)，包括状态转移概率 $P (s^{'} ∣ s, a)$ 和奖励函数 $R (s, a, s^{'})$ 。

基本元素包括：

策略 $π(a∣s)\pi(a|s)$
状态价值函数 $Vπ(s)V_\pi(s)$
动作价值函数 $Qπ(s,a)Q_\pi(s,a)$
贝尔曼方程

贝尔曼期望方程

状态价值函数的贝尔曼方程：

$Vπ(s)=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)[r+γVπ(s′)]V_\pi(s) = \sum_a \pi(a|s)\sum_{s',r} p(s',r|s,a)[r + \gamma V_\pi(s')]$

动作价值函数的贝尔曼方程：

$Qπ(s,a)=∑s′,rp(s′,r∣s,a)[r+γ∑a′π(a′∣s′)Qπ(s′,a′)]Q_\pi(s,a) = \sum_{s',r} p(s',r|s,a)[r + \gamma \sum_{a'} \pi(a'|s')Q_\pi(s',a')]$

2. 策略评估

也称为预测问题，目标是计算某个策略 $π\pi$ 的价值函数。显然，任何一个策略的评估函数是收到的回报期望，很显然，根据我们上一章的情况，对于一个动作策略不变的情况下，动作选择的概率不发生改变，对价值函数进行多次迭代会收敛到不动点，叫做：期望更新此时是这个策略的状态价值函数
迭代更新公式：

$Vk+1(s)=∑aπ(a∣s)∑s′Pss′a[Rss′a+γVk(s′)]V_{k+1}(s) = \sum_a \pi(a|s)\sum_{s'} P_{ss'}^a[R_{ss'}^a + \gamma V_k(s')]$
通常，我们使用就地更新，直接用新值覆盖原值，可以收敛的更快

3. 策略改进及迭代

3.1 策略改进

很显然，基于之前的动作策略更新到的价值函数并不是最优解，例如我完全可以在任意一个状态s选择返回值最高的动作，显然最高的动作一定优于当前的加权的平均期望，所以一定是一个更好的策略

整体来说，如果在 $π\pi$ 策略下，使用新的策略的动作产生的动作价值，高于当前状态的在 $π\pi$ 的策略的状态价值，则认为是更好
$qπ(s,π′(s))>=Vπ(s)q_\pi(s,\pi'(s)) >=V_\pi(s)$

一个好的策略改进策略，定理保证了新策略的价值不会变差：

$max⁡a∑s′Pss′a[Rss′a+γVπ(s′)]\pi'(s) = \argmax_a \sum_{s'} P_{ss'}^a[R_{ss'}^a + \gamma V_\pi(s')]$

3.2 策略迭代

策略迭代主要包含两个主要步骤：

策略评估
策略改进

这两个已经讲过了，基于刚刚已经更新了策略的情况下，那么对新的策略进行策略评估，从而继续完成优化的循环过程，直到所有的策略的动作都不在发生改变的时候

3.3 杰克租车问题

杰克租车的问题其实很复杂，原文中并没有详细说明杰克租车的问题的全部的规则和流程，实际的状态20*20，可以选择的动作也是20，是一个计算量很大的操作，实际计算机跑完这个过程的时间可能是按照分钟计算的，使用了time的模块，可以看到策略的评估和改进使用的时间分别如下
策略评估: 735.83 秒
策略改进: 89.69 秒

经过电脑多轮的策略迭代以后得到的策略图如下，颜色使用seaborn来生成热点图，
在这里插入图片描述
经过5轮迭代以后本地结果如图