强化学习-Chapter2-贝尔曼方程

贝尔曼方程推导

V π ( s ) = E [ G t ∣ S t = s ] = E [ r t + 1   +   ( γ r t + 2   + … ) ∣ S t   = s ] = E [ r t + 1 + γ G t + 1 ∣ S t = s ] = ∑ a ∈ A π ( s , a ) ∑ s ′ ∈ S P s → s ′ a ⋅ ( R s → s ′ a + γ E [ G t + 1 ∣ S t + 1 = s ′ ] ) = ∑ a ∈ A π ( s , a ) ∑ s ′ ∈ S P s → s ′ a ⋅ ( R s → s ′ a + γ V π ( s ′ ) ) = E [ r t + 1 + γ V π ( s t + 1 ) ∣ S t = s ] \begin{aligned} \mathrm{V}_\pi(\mathrm{s}) & =\mathbb{E}[\mathrm{G}_\mathrm{t}|\mathrm{S}_\mathrm{t}=\mathrm{s}] \\ & =\mathbb{E}[\mathrm{r_{t+1}~+~(\gamma r_{t+2}~+\ldots)|S_t~=s}] \\ & =\mathbb{E}[\mathrm{r}_{\mathrm{t}+1}+\gamma\mathrm{G}_{\mathrm{t}+1}|\mathrm{S}_{\mathrm{t}}=\mathrm{s}] \\ & =\sum_{\mathrm{a}\in\mathrm{A}}\pi(\mathrm{s},\mathrm{a})\sum_{\mathrm{s}^{\prime}\in\mathrm{S}}\mathrm{P}_{\mathrm{s}\to\mathrm{s}^{\prime}}^{\mathrm{a}}\cdot(\mathrm{R}_{\mathrm{s}\to\mathrm{s}^{\prime}}^{\mathrm{a}}+\gamma\mathbb{E}[\mathrm{G}_{\mathrm{t}+1}|\mathrm{S}_{\mathrm{t}+1}=\mathrm{s}^{\prime}]) \\ & =\sum_{\mathrm{a}\in\mathrm{A}}\pi(\mathrm{s},\mathrm{a})\sum_{\mathrm{s}^{\prime}\in\mathrm{S}}\mathrm{P}_{\mathrm{s}\to\mathrm{s}^{\prime}}^\mathrm{a}\cdot(\mathrm{R}_{\mathrm{s}\to\mathrm{s}^{\prime}}^\mathrm{a}+\gamma\mathrm{V}_\pi(\mathrm{s}^{\prime})) \\ & =\mathbb{E}[\mathrm{r}_{\mathrm{t}+1}+\gamma\mathrm{V}_\pi(\mathrm{s}_{\mathrm{t}+1})|\mathrm{S}_{\mathrm{t}}=\mathrm{s}] \end{aligned} Vπ(s)=E[GtSt=s]=E[rt+1 + (γrt+2 +)St =s]=E[rt+1+γGt+1St=s]=aAπ(s,a)sSPssa(Rssa+γE[Gt+1St+1=s])=aAπ(s,a)sSPssa(Rssa+γVπ(s))=E[rt+1+γVπ(st+1)St=s]

即: V π ( s ) = E [ r t + 1 + γ V π ( s t + 1 ) ∣ S t = s ] \begin{aligned} \mathrm{V}_\pi(\mathrm{s}) & =\mathbb{E}[\mathrm{r}_{\mathrm{t}+1}+\gamma\mathrm{V}_\pi(\mathrm{s}_{\mathrm{t}+1})|\mathrm{S}_{\mathrm{t}}=\mathrm{s}] \end{aligned} Vπ(s)=E[rt+1+γVπ(st+1)St=s]

再进行:动作-状态全概率展开,相当于写出当前状态s到下一个所有可能的状态s’的转换概率,再根据转换概率求和。
有了状态值函数V,我们就能直接计算出状态-动作值函数:
Q π ( s , a ) = ∑ s ′ ∈ S P s → s ′ a ⋅ ( R s → s ′ a + γ V π ( s ′ ) ) \mathrm{Q_\pi\left(s,a\right)=\sum_{s^{\prime}\in S}P_{s\to s^{\prime}}^a\cdot\left(R_{s\to s^{\prime}}^a+\gamma V_\pi\left(s^{\prime}\right)\right)} Qπ(s,a)=sSPssa(Rssa+γVπ(s))

参数解释:

  • G t G_t Gt: 时间从t到结束的累积奖赏,由于t时刻的奖励是采取行动后t+1时刻才拥有的,所以 G t G_t Gt满足:
    G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + … , = R t + 1 + γ ( R t + 2 + γ R t + 3 + … ) , = R t + 1 + γ G t + 1 , \begin{aligned} G_{t} & =R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\ldots, \\ & =R_{t+1}+\gamma(R_{t+2}+\gamma R_{t+3}+\ldots), \\ & =R_{t+1}+\gamma G_{t+1}, \end{aligned} Gt=Rt+1+γRt+2+γ2Rt+3+,=Rt+1+γ(Rt+2+γRt+3+),=Rt+1+γGt+1,

  • V π ( s ) V_\pi(s) Vπ(s): 策略为 π \pi π的状态-值函数,即状态 s s s下预计累计回报的期望值,满足:
    V π ( s ) = E [ G t ∣ S t = s ] V_\pi(s) = \mathbb{E}[G_t | S_t = s] Vπ(s)=E[GtSt=s]

  • Q π ( s , a ) Q_\pi(s, a) Qπ(s,a): 策略为 π \pi π的状态-动作值函数,即状态 s s s下采取行动 a a a预计累计回报的期望值,满足:
    Q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] Q_\pi(s, a) = \mathbb{E}[G_t | S_t = s, A_t = a] Qπ(s,a)=E[GtSt=s,At=a]

  • P s → s ′ a P_{s \to s'}^a Pssa: 采取行为 a a a后状态 s s s转换到 s ′ s' s的概率。

  • R s → s ′ a R_{s \to s'}^a Rssa: 采取行为 a a a后状态 s s s转换到 s ′ s' s所获得的奖赏。

  • π ( s , a ) \pi(s, a) π(s,a): 状态 s s s下根据策略 π \pi π采取行为 a a a的概率。

继续展开

考虑如下,有:
G t = R t + 1 + γ G t + 1 , \begin{aligned} G_{t} & =R_{t+1}+\gamma G_{t+1}, \end{aligned} Gt=Rt+1+γGt+1,
而:
v π ( s ) = E [ G t ∣ S t = s ] = E [ R t + 1 + γ G t + 1 ∣ S t = s ] = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] \begin{aligned} v_{\pi}(s) & \begin{aligned} =\mathbb{E}[G_t|S_t=s] \end{aligned} \\ & =\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s] \\ & =\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s] \end{aligned} vπ(s)=E[GtSt=s]=E[Rt+1+γGt+1St=s]=E[Rt+1St=s]+γE[Gt+1St=s]

分别计算两部分:
1、
E [ R t + 1 ∣ S t = s ] = ∑ a π ( a ∣ s ) E [ R t + 1 ∣ S t = s , A t = a ] = ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r \begin{aligned} \mathbb{E}[R_{t+1}|S_t=s] & =\sum_a\pi(a|s)\mathbb{E}[R_{t+1}|S_t=s,A_t=a] \\ & =\sum_a\pi(a|s)\sum_rp(r|s,a)r \end{aligned} E[Rt+1St=s]=aπ(as)E[Rt+1St=s,At=a]=aπ(as)rp(rs,a)r
参数解释:

  • π(a|s):对于策略π,状态s下采取动作a的概率
  • p(r|s,a):对于状态s,采取动作a并获得reward为r的概率
  • r:reward

2、
E [ G t + 1 ∣ S t = s ] = ∑ s ′ E [ G t + 1 ∣ S t = s , S t + 1 = s ′ ] p ( s ′ ∣ s ) = ∑ s ′ E [ G t + 1 ∣ S t + 1 = s ′ ] p ( s ′ ∣ s ) = ∑ s ′ v π ( s ′ ) p ( s ′ ∣ s ) = ∑ s ′ v π ( s ′ ) ∑ a p ( s ′ ∣ s , a ) π ( a ∣ s ) \begin{aligned} \mathbb{E}[G_{t+1}|S_t=s] & =\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_t=s,S_{t+1}=s^{\prime}]p(s^{\prime}|s) \\ & =\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_{t+1}=s^{\prime}]p(s^{\prime}|s) \\ & =\sum_{s^{\prime}}v_\pi(s^{\prime})p(s^{\prime}|s) \\ & =\sum_{s^{\prime}}v_\pi(s^{\prime})\sum_ap(s^{\prime}|s,a)\pi(a|s) \end{aligned} E[Gt+1St=s]=sE[Gt+1St=s,St+1=s]p(ss)=sE[Gt+1St+1=s]p(ss)=svπ(s)p(ss)=svπ(s)ap(ss,a)π(as)

参数解释:

  • G t + 1 G_{t+1} Gt+1:从时刻 t + 1 t+1 t+1开始的累积回报(可能包含折扣因子 γ ) \gamma) γ)
  • s s s s ′ s^{\prime} s:当前状态和下一状态。
  • p ( s ′ ∣ s ) p(s^{\prime}|s) p(ss):从状态 s s s转移到 s ′ s^\prime s的总体概率 (考虑策略 π \pi π的动作选择)。
  • v π ( s ′ ) v_\pi(s^{\prime}) vπ(s):策略 π \pi π下状态 s ′ s^{\prime} s的价值函数。
  • π ( a ∣ s ) \pi(a|s) π(as):策略 π \pi π在状态 s s s选择动作 a a a的概率。
  • p ( s ′ ∣ s , a ) p(s^{\prime}|s,a) p(ss,a):在状态 s s s执行动作 a a a后转移到 s ′ s^\prime s的环境动态概率。

将两个式子合并,得到:
v π ( s ) = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] , = ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r ⏟ mean of immediate rewards + γ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) , ⏟ mean of future rewards = ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] , ∀ s ∈ S . \begin{aligned} v_{\pi}(s) & =\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s], \\ & \underbrace{=\sum_a\pi(a|s)\sum_rp(r|s,a)r}_{\text{mean of immediate rewards}}+\underbrace{\gamma\sum_a\pi(a|s)\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime}),}_{\text{mean of future rewards}} \\ & =\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r+\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right],\quad\forall s\in\mathcal{S}. \end{aligned} vπ(s)=E[Rt+1St=s]+γE[Gt+1St=s],mean of immediate rewards =aπ(as)rp(rs,a)r+mean of future rewards γaπ(as)sp(ss,a)vπ(s),=aπ(as)[rp(rs,a)r+γsp(ss,a)vπ(s)],sS.

参数解释:
该公式是策略 π \pi π 下状态价值函数 v π ( s ) v_\pi(s) vπ(s) 的贝尔曼方程展开形式,描述了当前状态价值与即时奖励、未来折扣价值的递归关系。具体分解如下:

  1. 基础形式
    v π ( s ) = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] v_{\pi}(s) = \mathbb{E}[R_{t+1}|S_t=s] + \gamma\mathbb{E}[G_{t+1}|S_t=s] vπ(s)=E[Rt+1St=s]+γE[Gt+1St=s]

    • 含义:状态价值分为两部分:
      • 即时奖励期望 E [ R t + 1 ∣ S t = s ] \mathbb{E}[R_{t+1}|S_t=s] E[Rt+1St=s]:从状态 s s s 出发的下一步立即奖励的期望。
      • 未来折扣价值期望 γ E [ G t + 1 ∣ S t = s ] \gamma\mathbb{E}[G_{t+1}|S_t=s] γE[Gt+1St=s]:从状态 s s s 出发的未来累积回报的期望,按折扣因子 γ \gamma γ 加权
  2. 展开为策略与环境的交互
    = ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r ⏟ 即时奖励均值 + γ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ⏟ 未来奖励均值 \underbrace{=\sum_a\pi(a|s)\sum_rp(r|s,a)r}_{\text{即时奖励均值}} + \underbrace{\gamma\sum_a\pi(a|s)\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})}_{\text{未来奖励均值}} 即时奖励均值 =aπ(as)rp(rs,a)r+未来奖励均值 γaπ(as)sp(ss,a)vπ(s)

    • 即时奖励部分
      • π ( a ∣ s ) \pi(a|s) π(as):策略 π \pi π 在状态 s s s 下选择动作 a a a 的概率。
      • p ( r ∣ s , a ) p(r|s,a) p(rs,a):在状态 s s s 执行动作 a a a 后获得立即奖励 r r r 的概率。
      • a a a r r r 求和,得到策略与环境共同作用的即时奖励期望
    • 未来价值部分
      • p ( s ′ ∣ s , a ) p(s^{\prime}|s,a) p(ss,a):执行动作 a a a 后从 s s s 转移到 s ′ s' s 的状态转移概率。
      • v π ( s ′ ) v_\pi(s^{\prime}) vπ(s):后续状态 s ′ s' s 的价值函数,体现未来累积回报的期望。
      • a a a s ′ s' s 求和,结合折扣因子 γ \gamma γ,得到未来价值的期望
  3. 合并为紧凑形式
    = ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] =\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r + \gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right] =aπ(as)[rp(rs,a)r+γsp(ss,a)vπ(s)]

    • 综合意义:对每个动作 a a a,计算其即时奖励与后续状态价值的加权和,再按策略 π \pi π 的概率加权平均,形成状态 s s s 的整体价值

关键参数

  • γ \gamma γ:折扣因子( 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0γ1),权衡当前与未来奖励的重要性
  • π ( a ∣ s ) \pi(a|s) π(as):策略函数,决定动作选择的概率分布
  • p ( r ∣ s , a ) p(r|s,a) p(rs,a) p ( s ′ ∣ s , a ) p(s^{\prime}|s,a) p(ss,a):环境动态模型,分别描述奖励和状态转移的随机性
  • v π ( s ) 和 v π ( s ′ ) v_π(s)和v_π(s') vπ(s)vπ(s)是代计算的状态值

贝尔曼方程的矩阵形式

前面我们证明了
v π ( s ) = ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] v_\pi(s)=\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r+\gamma\sum_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\right] vπ(s)=aπ(as)[rp(rs,a)r+γsp(ss,a)vπ(s)]
且,有:
r π ( s ) ≜ ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r , p π ( s ′ ∣ s ) ≜ ∑ a π ( a ∣ s ) p ( s ′ ∣ s , a ) r_\pi(s)\triangleq\sum_a\pi(a|s)\sum_rp(r|s,a)r,\quad p_\pi(s^{\prime}|s)\triangleq\sum_a\pi(a|s)p(s^{\prime}|s,a) rπ(s)aπ(as)rp(rs,a)r,pπ(ss)aπ(as)p(ss,a)
这两个公式的意思是:
r π ( s ) r_π(s) rπ(s)表示,状态s的reward是状态s时能采取的所有action并获得的所有reward的期望
p π ( s ′ ∣ s ) p_π(s'|s) pπ(ss)表示状态s到s’的概率,即状态s下采取不同action的概率乘以这个action可以导致进入s‘状态的概率

有这三个式子,可以将贝尔曼方程重写为:
v π ( s ) = r π ( s ) + γ ∑ s ′ p π ( s ′ ∣ s ) v π ( s ′ ) v_\pi(s)=r_\pi(s)+\gamma\sum_{s^\prime}p_\pi(s^\prime|s)v_\pi(s^\prime) vπ(s)=rπ(s)+γspπ(ss)vπ(s)

将它改成带下标的形式即为:
v π ( s i ) = r π ( s i ) + γ ∑ s j p π ( s j ∣ s i ) v π ( s j ) v_\pi(s_i)=r_\pi(s_i)+\gamma\sum_{s_j}p_\pi(s_j|s_i)v_\pi(s_j) vπ(si)=rπ(si)+γsjpπ(sjsi)vπ(sj)
考虑 i和j在1到n之间变化有:
[ v π ( s 1 ) v π ( s 2 ) v π ( s 3 ) v π ( s 4 ) ] ⏟ v π = [ r π ( s 1 ) r π ( s 2 ) r π ( s 3 ) r π ( s 4 ) ] ⏟ r π + γ [ p π ( s 1 ∣ s 1 ) p π ( s 2 ∣ s 1 ) p π ( s 3 ∣ s 1 ) p π ( s 4 ∣ s 1 ) p π ( s 1 ∣ s 2 ) p π ( s 2 ∣ s 2 ) p π ( s 3 ∣ s 2 ) p π ( s 4 ∣ s 2 ) p π ( s 1 ∣ s 3 ) p π ( s 2 ∣ s 3 ) p π ( s 3 ∣ s 3 ) p π ( s 4 ∣ s 3 ) p π ( s 1 ∣ s 4 ) p π ( s 2 ∣ s 4 ) p π ( s 3 ∣ s 4 ) p π ( s 4 ∣ s 4 ) ] ⏟ P π [ v π ( s 1 ) v π ( s 2 ) v π ( s 3 ) v π ( s 4 ) ] ⏟ v π . \begin{aligned} & \underbrace{ \begin{bmatrix} v_\pi(s_1) \\ v_\pi(s_2) \\ v_\pi(s_3) \\ v_\pi(s_4) \end{bmatrix}}_{v_\pi}=\underbrace{ \begin{bmatrix} r_\pi(s_1) \\ r_\pi(s_2) \\ r_\pi(s_3) \\ r_\pi(s_4) \end{bmatrix}}_{r_\pi}+\gamma\underbrace{ \begin{bmatrix} p_\pi(s_1|s_1) & p_\pi(s_2|s_1) & p_\pi(s_3|s_1) & p_\pi(s_4|s_1) \\ p_\pi(s_1|s_2) & p_\pi(s_2|s_2) & p_\pi(s_3|s_2) & p_\pi(s_4|s_2) \\ p_\pi(s_1|s_3) & p_\pi(s_2|s_3) & p_\pi(s_3|s_3) & p_\pi(s_4|s_3) \\ p_\pi(s_1|s_4) & p_\pi(s_2|s_4) & p_\pi(s_3|s_4) & p_\pi(s_4|s_4) \end{bmatrix}}_{P_\pi}\underbrace{ \begin{bmatrix} v_\pi(s_1) \\ v_\pi(s_2) \\ v_\pi(s_3) \\ v_\pi(s_4) \end{bmatrix}}_{v_\pi}. \end{aligned} vπ vπ(s1)vπ(s2)vπ(s3)vπ(s4) =rπ rπ(s1)rπ(s2)rπ(s3)rπ(s4) +γPπ pπ(s1s1)pπ(s1s2)pπ(s1s3)pπ(s1s4)pπ(s2s1)pπ(s2s2)pπ(s2s3)pπ(s2s4)pπ(s3s1)pπ(s3s2)pπ(s3s3)pπ(s3s4)pπ(s4s1)pπ(s4s2)pπ(s4s3)pπ(s4s4) vπ vπ(s1)vπ(s2)vπ(s3)vπ(s4) .

写成矩阵形式则为:
v π = r π + γ P π v π v_\pi=r_\pi+\gamma P_\pi v_\pi vπ=rπ+γPπvπ
其中:
v π = [ v π ( s 1 ) , … , v π ( s n ) ] T ∈ R n r π = [ r π ( s 1 ) , … , r π ( s n ) ] T ∈ R n P π ∈ R n × n , w h e r e   [ P π ] i j = p π ( s j ∣ s i ) ,就是状态转移矩阵 \begin{aligned} & v_\pi=[v_\pi(s_1),\ldots,v_\pi(s_n)]^T\in\mathbb{R}^n \\ & r_\pi=[r_\pi(s_1),\ldots,r_\pi(s_n)]^T\in\mathbb{R}^n \\ & P_\pi\in\mathbb{R}^{n\times n}\mathrm{,where~}[P_\pi]_{ij}=p_\pi(s_j|s_i)\text{,就是状态转移矩阵} \end{aligned} vπ=[vπ(s1),,vπ(sn)]TRnrπ=[rπ(s1),,rπ(sn)]TRnPπRn×n,where [Pπ]ij=pπ(sjsi),就是状态转移矩阵

状态值的求解

v π = r π + γ P π v π v_\pi=r_\pi+\gamma P_\pi v_\pi vπ=rπ+γPπvπ,进行一个简单的矩阵运算,则: v π = ( I − γ P π ) − 1 r π v_\pi=(I-\gamma P_\pi)^{-1}r_\pi vπ=(IγPπ)1rπ
由于矩阵的逆不好求解,所以一般不采用这种方式。

另一种迭代的方式:
v k + 1 = r π + γ P π v k v k → v π = ( I − γ P π ) − 1 r π , k → ∞ v_{k+1}=r_\pi+\gamma P_\pi v_k \\ v_k\to v_\pi=(I-\gamma P_\pi)^{-1}r_\pi,\quad k\to\infty vk+1=rπ+γPπvkvkvπ=(IγPπ)1rπ,k
当k迭代到无穷时,这时的 v k v_k vk就趋向于真正的解,思想类似高数的求极限

动作价值函数与状态价值函数的关系

动作价值函数:
v k → v π = ( I − γ P π ) − 1 r π , k → ∞ v_k\to v_\pi=(I-\gamma P_\pi)^{-1}r_\pi,\quad k\to\infty vkvπ=(IγPπ)1rπ,k

又:
E [ G t ∣ S t = s ] ⏟ v π ( s ) = ∑ a E [ G t ∣ S t = s , A t = a ] ⏟ q π ( s , a ) π ( a ∣ s ) \underbrace{\mathbb{E}[G_t|S_t=s]}_{v_\pi(s)}=\sum_a\underbrace{\mathbb{E} [G_t|S_t=s,A_t=a]}_{q_\pi(s,a)}\pi(a|s) vπ(s) E[GtSt=s]=aqπ(s,a) E[GtSt=s,At=a]π(as)
因此
v π ( s ) = ∑ a π ( a ∣ s ) q π ( s , a ) v_\pi(s)=\sum_a\pi(a|s)q_\pi(s,a) vπ(s)=aπ(as)qπ(s,a)

再次回顾这个式子:
v π ( s ) = ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] v_π(s)=\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r + \gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right] vπ(s)=aπ(as)[rp(rs,a)r+γsp(ss,a)vπ(s)]
那么可以得到:
q π ( s , a ) = ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) q_π(s,a)=\sum_rp(r|s,a)r + \gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime}) qπ(s,a)=rp(rs,a)r+γsp(ss,a)vπ(s)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值