动态规划强化学习：价值迭代与策略迭代详解-优快云博客

基于动态规划的强化学习

给策略 $π\pi$ 定义价值函数

在这里插入图片描述

对状态 $s$ 来说的最优价值函数是所有策略可获得的最大可能折扣奖励的和

$V∗(s)=max⁡πVπ(s){V^{*}(s)=\max\limits_{\pi}{V^{\pi}(s)}}$

最优价值函数的Bellman等式

$V∗(s)=R(s)+max⁡a∈Aγ∑s′∈SPsa(s′)V∗(s′){V^{*}(s)}={R(s)+\max\limits_{a\in A}{\gamma\sum\limits_{s' \in S}{P_{sa}(s')V^{*}(s')}}}$

最优策略
$π∗(s)=arg⁡max⁡a∈A∑s′∈SPsa(s′)V∗(s′){\pi^{*}(s)}={\arg\max\limits_{a \in A}{\sum\limits_{s' \in S}{P_{sa}(s')V^{*}(s')}}}$

对状态 $s$ 和策略 $π\pi$

$V∗(s)=Vπ∗(s)≥Vπ(s){V^{*}(s)}={V^{\pi^{*}}(s)\geq V^{\pi}(s)}$

价值函数和策略相关

$Vπ(s)=R(s)+γ∑s′∈SPsπ(s)Vπ(s′){V^{\pi}(s)}={R(s)+\gamma\sum\limits_{s' \in S}{P_{s\pi{(s)}}V^{\pi}(s')}}$

$π(s)=arg⁡max⁡a∈A∑s′∈SPsa(s′)Vπ(s′){\pi{(s)}}={\arg\max\limits_{a \in A}{\sum\limits_{s' \in S}{P_{sa}(s')V^{\pi}(s')}}}$

可以对最优价值函数和最优策略执行迭代更新

对于一个动作空间和状态空间有限的MDP

$∣S∣<∞,∣A∣<∞|S|<\infty,|A|<\infty$

价值迭代过程

对每个状态 $s$ ，初始化 $V (s) = 0$
重复以下过程直到收敛
对每个状态，更新
$ $V(s)=R(s)+max⁡a∈Aγ∑s′∈SPsa(s′)V(s′){V(s)}={R(s)+\max\limits_{a \in A}{\gamma\sum\limits_{s' \in S}{P_{sa}(s')V(s')}}}$

注意：在以上的计算中没有明确的策略，只局限于数值计算

同步价值迭代： 同步的价值迭代会储存两份价值函数的拷贝

对 $S$ 中的所有状态 $s$
$Vnew(s)←max⁡a∈A(R(s)+γ∑s′∈SPsa(s′)Vold(s′)){V_{new}(s)}\leftarrow\max\limits_{a \in A}{\left(R(s)+\gamma\sum\limits_{s' \in S}{P_{sa}{(s')}V_{old}{(s')}}\right)}$
更新
$Vold(s)←Vnew(s){V_{old}{(s)}}\leftarrow{V_{new}{(s)}}$

需要两倍的空间进行存储

异步价值迭代： 异步价值迭代只储存一份价值函数

对 $S$ 中的所有状态 $s$
$V(s)←max⁡a∈A(R(s)+γ∑s′∈SPsa(s′)V(s′)){V(s)}\leftarrow{\max\limits_{a \in A}{\left(R(s)+\gamma\sum\limits_{s' \in S}{P_{sa}{(s')}V(s')}\right)}}$