贝尔曼最优方程
强化学习的目标是找到一个最优策略,使得智能体从初始状态出发后,能够获得最大的期望回报(这个最大是相对我们能找到的所有策略来说的)。
最优策略
策略之间的大小关系
策略之间的优劣通过最终获得的期望回报的大小来评判。
这样定义策略之间的大小关系:对于状态空间中的所有状态sss,使用策略π1\pi_1π1获得的价值Vπ1(s)V^{\pi_1}(s)Vπ1(s)比使用策略π2\pi_2π2获得的价值Vπ2(s)V^{\pi_2}(s)Vπ2(s)都大或者至少相等,那就认为策略π1\pi_1π1优于策略π2\pi_2π2。即∀s∈S\forall s \in S∀s∈S,有Vπ1(s)≥Vπ2(s)V^{\pi_1}(s) \geq V^{\pi_2}(s)Vπ1(s)≥Vπ2(s),则π1≥π2\pi_1 \geq \pi_2π1≥π2。
最优策略的定义
最优策略,记作π∗\pi^*π∗。当存在一个策略,它在状态空间中的所有状态sss都能获得最大(或者至少不弱于其他策略)的V(s)V(s)V(s)值,这个策略就是最优策略。
最优策略可能有多个。
最优状态价值函数
最优状态价值函数,记作V∗(s)V^*(s)V∗(s),指智能体使用最优策略得到的状态价值函数。即:
V∗(s)=maxVπ(s),∀s∈S
V^{*}(s) = \max V^{\pi}(s), \forall s \in S
V∗(s)=maxVπ(s),∀s∈S
最优动作价值函数
最优动作价值函数,记作Q∗(s,a)Q^*(s,a)Q∗(s,a),指智能体使用最优策略得到的动作价值函数。即:
Q∗(s,a)=maxQπ(s,a),∀s∈S,a∈A
Q^*(s,a) = \max Q^{\pi}(s,a), \forall s \in S, a \in A
Q∗(s,a)=maxQπ(s,a),∀s∈S,a∈A
最优状态价值函数与最优动作价值函数的关系
关系1
V∗(s)=maxa∈AQ∗(s,a) V^*(s) = \max_{a \in A} Q^*(s, a) V∗(s)=a∈AmaxQ∗(s,a)
如何理解这一关系?

在上图中,当智能体来到状态sss时,假设接下来它能做的动作只有2个,一个是a1a_1a1,另一个是a2a_2a2,并且根据智能体目前的经验来看,采取动作a1a_1a1后,能够得到的最优价值是Q∗(s,a1)Q^*(s,a_1)Q∗(s,a1)(这里的QQQ带了“∗*∗”,表示在使用最优策略的前提下,智能体从状态-动作对(s,a1)(s,a_1)(s,a1)出发后能够获得的最优价值);采取动作a2a_2a2后,能够得到的最优价值是Q∗(s,a2)Q^*(s,a_2)Q∗(s,a2)(这里的QQQ带了“∗*∗”,表示在使用最优策略的前提下,智能体从状态-动作对(s,a2)(s,a_2)(s,a2)出发后能够获得的最优价值)。如果智能体想要获得尽可能大的价值(回报的期望),那它肯定会采取与更高价值相关的那个动作,以获得两个QQQ值中最大的那个(图中的弧线表示取最大值)。而这也正是最优策略所做的事情。因此,使用最优策略时,在状态sss下,V∗(s)=maxQ∗(s,a)V^*(s) = \max Q^*(s, a)V∗(s)=maxQ∗(s,a)。
关系2
Q∗(s,a)=r(s,a)+γ∑s′∈Sp(s′∣s,a)V∗(s′) Q^*(s, a) = r(s, a) + \gamma \sum_{s^{\prime} \in S} p(s^{\prime}|s,a)V^*(s^{\prime}) Q∗(s,a)=r(s,a)+γs′∈S∑p(s′∣s,a)V∗(s′)
如何理解这一关系?

在上图中,当智能体在状态sss时已经采取了动作aaa,假设接下来它采取动作aaa后可以去到的状态只有2个,一个是s1s_1s1,另一个是s2s_2s2,并且根据智能体目前的经验来看,采取状态s1s_1s1后,能够得到的最优价值是V∗(s1)V^*(s_1)V∗(s1)(这里的VVV带了“∗*∗”,表示在使用最优策略的前提下,智能体从状态sss出发后能够获得的最优价值);采取状态s2s_2s2后,能够得到的最优价值是V∗(s2)V^*(s_2)V∗(s2)(这里的VVV带了“∗*∗”,表示在使用最优策略的前提下,智能体从状态s2s_2s2出发后能够获得的最优价值)。如果智能体想要获得尽可能大的价值(回报的期望),那它肯定会采取与更高价值相关的那个状态。但是,由于在选择动作后,能够到达哪个状态是无法确定的、智能体没法控制(智能体能根据策略控制自己采取什么动作,但是采取动作后会到达什么状态就要受充满随机性的环境的影响了),有p(s1∣s,a)p(s_1|s,a)p(s1∣s,a)的概率到达状态s1s_1s1,有p(s2∣s,a)p(s_2|s,a)p(s2∣s,a)的概率到达状态s2s_2s2。那既然不能控制到达哪个状态,即使知道哪个状态对应的最优价值更大也用处不大,也没法保证就能到达那个最优价值更大的状态,那就根据到达状态的概率对可能到达的所有下一状态的最优价值求平均吧(所以图片中没有画弧线了,因为没有把握求最大),再加上环境给予的即时奖励。因此,使用最优策略时,在状态sss已经采取动作aaa的情况下,Q∗(s,a)=r(s,a)+γ∑s∈Sp(s′∣s,a)V∗(s′)Q^*(s,a) = r(s,a) + \gamma \sum_{s \in S}p(s^{\prime}|s,a)V^*(s^{\prime})Q∗(s,a)=r(s,a)+γ∑s∈Sp(s′∣s,a)V∗(s′)。
贝尔曼最优方程
(两种类型的函数都有各自的两种贝尔曼最优方程表达形式,涉及到p(s′∣s,a)p(s^{\prime}|s,a)p(s′∣s,a)和p(s′,r∣s,a)p(s^{\prime},r|s,a)p(s′,r∣s,a)的关系)
最优状态价值函数的贝尔曼最优方程
方程1
将上文中的关系2代入上文中的关系1,可以得到:
V∗(s)=maxa∈Ar(s,a)+γ∑s′∈Sp(s′∣s,a)V∗(s′)
V^*(s) = \max_{a \in A} \quad r(s,a) + \gamma \sum_{s^{\prime} \in S}p(s^{\prime}|s,a)V^*(s^{\prime})
V∗(s)=a∈Amaxr(s,a)+γs′∈S∑p(s′∣s,a)V∗(s′)
此式即为最优状态价值函数的贝尔曼最优方程。
方程2
根据p(s′∣s,a)p(s^{\prime}|s,a)p(s′∣s,a)和p(s′,r∣s,a)p(s^{\prime},r|s,a)p(s′,r∣s,a)的关系,此式也可以写成如下形式:
V∗(s)=maxa∈A∑r∈Rr∑s′∈Sp(s′,r∣s,a)+γ∑s′∈S,r∈Rp(s′,r∣s,a)V∗(s′)=maxa∈A∑s′∈S,r∈Rp(s′,r∣s,a)[r+γV∗(s′)]
\begin{aligned}
V^*(s) =& \max_{a \in A} \quad \sum_{r \in R}r \sum_{s^{\prime} \in S}p(s^{\prime},r|s,a) + \gamma \sum_{s^{\prime} \in S, r \in R}p(s^{\prime}, r |s,a)V^*(s^{\prime}) \\
=& \max_{a \in A} \sum_{s^{\prime} \in S, r \in R}p(s^{\prime}, r|s,a)\left[ r+ \gamma V^*({s^{\prime}}) \right]
\end{aligned}
V∗(s)==a∈Amaxr∈R∑rs′∈S∑p(s′,r∣s,a)+γs′∈S,r∈R∑p(s′,r∣s,a)V∗(s′)a∈Amaxs′∈S,r∈R∑p(s′,r∣s,a)[r+γV∗(s′)]
最优动作价值函数的贝尔曼最优方程
方程1
将上文中的关系1代入上文中的关系2,可以得到:
Q∗(s,a)=r(s,a)+γ∑s′∈Sp(s′∣s,a)maxa′∈AQ∗(s′,a′)
Q^*(s,a) = r(s,a) + \gamma \sum_{s^{\prime} \in S}p(s^{\prime} | s,a)\max_{a^{\prime} \in A} Q^*(s^{\prime},a^{\prime})
Q∗(s,a)=r(s,a)+γs′∈S∑p(s′∣s,a)a′∈AmaxQ∗(s′,a′)
此式即为最优动作价值函数的贝尔曼最优方程。
方程2
根据p(s′∣s,a)p(s^{\prime}|s,a)p(s′∣s,a)和p(s′,r∣s,a)p(s^{\prime},r|s,a)p(s′,r∣s,a)的关系,此式也可以写成如下形式:
Q∗(s,a)=∑r∈Rr∑s′∈Sp(s′,r∣s,a)+γ∑s′∈S,r∈Rp(s′,r∣s,a)maxa′∈AQ∗(s′,a′)=∑s′∈S,r∈Rp(s′,r∣s,a)[r+γmaxa′∈AQ∗(s′,a′)]
\begin{aligned}
Q^*(s,a) &= \sum_{r \in R}r \sum_{s^{\prime} \in S} p(s^{\prime},r | s,a) + \gamma \sum_{s^{\prime} \in S, r \in R}p(s^{\prime},r|s,a) \max_{a^{\prime} \in A} Q^*(s^{\prime}, a^{\prime}) \\
&= \sum_{s^{\prime} \in S, r \in R} p(s^{\prime},r | s,a) \left[ r + \gamma \max_{a^{\prime} \in A}Q^*(s^{\prime}, a^{\prime}) \right]
\end{aligned}
Q∗(s,a)=r∈R∑rs′∈S∑p(s′,r∣s,a)+γs′∈S,r∈R∑p(s′,r∣s,a)a′∈AmaxQ∗(s′,a′)=s′∈S,r∈R∑p(s′,r∣s,a)[r+γa′∈AmaxQ∗(s′,a′)]
最优状态价值函数和最优动作价值函数的方程2长得很像,但是max\maxmax的位置不同。
1万+

被折叠的 条评论
为什么被折叠?



