强化学习-Chapter2-贝尔曼方程
贝尔曼方程推导
V π ( s ) = E [ G t ∣ S t = s ] = E [ r t + 1 + ( γ r t + 2 + … ) ∣ S t = s ] = E [ r t + 1 + γ G t + 1 ∣ S t = s ] = ∑ a ∈ A π ( s , a ) ∑ s ′ ∈ S P s → s ′ a ⋅ ( R s → s ′ a + γ E [ G t + 1 ∣ S t + 1 = s ′ ] ) = ∑ a ∈ A π ( s , a ) ∑ s ′ ∈ S P s → s ′ a ⋅ ( R s → s ′ a + γ V π ( s ′ ) ) = E [ r t + 1 + γ V π ( s t + 1 ) ∣ S t = s ] \begin{aligned} \mathrm{V}_\pi(\mathrm{s}) & =\mathbb{E}[\mathrm{G}_\mathrm{t}|\mathrm{S}_\mathrm{t}=\mathrm{s}] \\ & =\mathbb{E}[\mathrm{r_{t+1}~+~(\gamma r_{t+2}~+\ldots)|S_t~=s}] \\ & =\mathbb{E}[\mathrm{r}_{\mathrm{t}+1}+\gamma\mathrm{G}_{\mathrm{t}+1}|\mathrm{S}_{\mathrm{t}}=\mathrm{s}] \\ & =\sum_{\mathrm{a}\in\mathrm{A}}\pi(\mathrm{s},\mathrm{a})\sum_{\mathrm{s}^{\prime}\in\mathrm{S}}\mathrm{P}_{\mathrm{s}\to\mathrm{s}^{\prime}}^{\mathrm{a}}\cdot(\mathrm{R}_{\mathrm{s}\to\mathrm{s}^{\prime}}^{\mathrm{a}}+\gamma\mathbb{E}[\mathrm{G}_{\mathrm{t}+1}|\mathrm{S}_{\mathrm{t}+1}=\mathrm{s}^{\prime}]) \\ & =\sum_{\mathrm{a}\in\mathrm{A}}\pi(\mathrm{s},\mathrm{a})\sum_{\mathrm{s}^{\prime}\in\mathrm{S}}\mathrm{P}_{\mathrm{s}\to\mathrm{s}^{\prime}}^\mathrm{a}\cdot(\mathrm{R}_{\mathrm{s}\to\mathrm{s}^{\prime}}^\mathrm{a}+\gamma\mathrm{V}_\pi(\mathrm{s}^{\prime})) \\ & =\mathbb{E}[\mathrm{r}_{\mathrm{t}+1}+\gamma\mathrm{V}_\pi(\mathrm{s}_{\mathrm{t}+1})|\mathrm{S}_{\mathrm{t}}=\mathrm{s}] \end{aligned} Vπ(s)=E[Gt∣St=s]=E[rt+1 + (γrt+2 +…)∣St =s]=E[rt+1+γGt+1∣St=s]=a∈A∑π(s,a)s′∈S∑Ps→s′a⋅(Rs→s′a+γE[Gt+1∣St+1=s′])=a∈A∑π(s,a)s′∈S∑Ps→s′a⋅(Rs→s′a+γVπ(s′))=E[rt+1+γVπ(st+1)∣St=s]
即: V π ( s ) = E [ r t + 1 + γ V π ( s t + 1 ) ∣ S t = s ] \begin{aligned} \mathrm{V}_\pi(\mathrm{s}) & =\mathbb{E}[\mathrm{r}_{\mathrm{t}+1}+\gamma\mathrm{V}_\pi(\mathrm{s}_{\mathrm{t}+1})|\mathrm{S}_{\mathrm{t}}=\mathrm{s}] \end{aligned} Vπ(s)=E[rt+1+γVπ(st+1)∣St=s]
再进行:动作-状态全概率展开,相当于写出当前状态s到下一个所有可能的状态s’的转换概率,再根据转换概率求和。
有了状态值函数V,我们就能直接计算出状态-动作值函数:
Q
π
(
s
,
a
)
=
∑
s
′
∈
S
P
s
→
s
′
a
⋅
(
R
s
→
s
′
a
+
γ
V
π
(
s
′
)
)
\mathrm{Q_\pi\left(s,a\right)=\sum_{s^{\prime}\in S}P_{s\to s^{\prime}}^a\cdot\left(R_{s\to s^{\prime}}^a+\gamma V_\pi\left(s^{\prime}\right)\right)}
Qπ(s,a)=s′∈S∑Ps→s′a⋅(Rs→s′a+γVπ(s′))
参数解释:
-
G t G_t Gt: 时间从t到结束的累积奖赏,由于t时刻的奖励是采取行动后t+1时刻才拥有的,所以 G t G_t Gt满足:
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + … , = R t + 1 + γ ( R t + 2 + γ R t + 3 + … ) , = R t + 1 + γ G t + 1 , \begin{aligned} G_{t} & =R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\ldots, \\ & =R_{t+1}+\gamma(R_{t+2}+\gamma R_{t+3}+\ldots), \\ & =R_{t+1}+\gamma G_{t+1}, \end{aligned} Gt=Rt+1+γRt+2+γ2Rt+3+…,=Rt+1+γ(Rt+2+γRt+3+…),=Rt+1+γGt+1, -
V π ( s ) V_\pi(s) Vπ(s): 策略为 π \pi π的状态-值函数,即状态 s s s下预计累计回报的期望值,满足:
V π ( s ) = E [ G t ∣ S t = s ] V_\pi(s) = \mathbb{E}[G_t | S_t = s] Vπ(s)=E[Gt∣St=s] -
Q π ( s , a ) Q_\pi(s, a) Qπ(s,a): 策略为 π \pi π的状态-动作值函数,即状态 s s s下采取行动 a a a预计累计回报的期望值,满足:
Q π ( s , a ) = E [ G t ∣ S t = s , A t = a ] Q_\pi(s, a) = \mathbb{E}[G_t | S_t = s, A_t = a] Qπ(s,a)=E[Gt∣St=s,At=a] -
P s → s ′ a P_{s \to s'}^a Ps→s′a: 采取行为 a a a后状态 s s s转换到 s ′ s' s′的概率。
-
R s → s ′ a R_{s \to s'}^a Rs→s′a: 采取行为 a a a后状态 s s s转换到 s ′ s' s′所获得的奖赏。
-
π ( s , a ) \pi(s, a) π(s,a): 状态 s s s下根据策略 π \pi π采取行为 a a a的概率。
继续展开
考虑如下,有:
G
t
=
R
t
+
1
+
γ
G
t
+
1
,
\begin{aligned} G_{t} & =R_{t+1}+\gamma G_{t+1}, \end{aligned}
Gt=Rt+1+γGt+1,
而:
v
π
(
s
)
=
E
[
G
t
∣
S
t
=
s
]
=
E
[
R
t
+
1
+
γ
G
t
+
1
∣
S
t
=
s
]
=
E
[
R
t
+
1
∣
S
t
=
s
]
+
γ
E
[
G
t
+
1
∣
S
t
=
s
]
\begin{aligned} v_{\pi}(s) & \begin{aligned} =\mathbb{E}[G_t|S_t=s] \end{aligned} \\ & =\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s] \\ & =\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s] \end{aligned}
vπ(s)=E[Gt∣St=s]=E[Rt+1+γGt+1∣St=s]=E[Rt+1∣St=s]+γE[Gt+1∣St=s]
分别计算两部分:
1、
E
[
R
t
+
1
∣
S
t
=
s
]
=
∑
a
π
(
a
∣
s
)
E
[
R
t
+
1
∣
S
t
=
s
,
A
t
=
a
]
=
∑
a
π
(
a
∣
s
)
∑
r
p
(
r
∣
s
,
a
)
r
\begin{aligned} \mathbb{E}[R_{t+1}|S_t=s] & =\sum_a\pi(a|s)\mathbb{E}[R_{t+1}|S_t=s,A_t=a] \\ & =\sum_a\pi(a|s)\sum_rp(r|s,a)r \end{aligned}
E[Rt+1∣St=s]=a∑π(a∣s)E[Rt+1∣St=s,At=a]=a∑π(a∣s)r∑p(r∣s,a)r
参数解释:
- π(a|s):对于策略π,状态s下采取动作a的概率
- p(r|s,a):对于状态s,采取动作a并获得reward为r的概率
- r:reward
2、
E
[
G
t
+
1
∣
S
t
=
s
]
=
∑
s
′
E
[
G
t
+
1
∣
S
t
=
s
,
S
t
+
1
=
s
′
]
p
(
s
′
∣
s
)
=
∑
s
′
E
[
G
t
+
1
∣
S
t
+
1
=
s
′
]
p
(
s
′
∣
s
)
=
∑
s
′
v
π
(
s
′
)
p
(
s
′
∣
s
)
=
∑
s
′
v
π
(
s
′
)
∑
a
p
(
s
′
∣
s
,
a
)
π
(
a
∣
s
)
\begin{aligned} \mathbb{E}[G_{t+1}|S_t=s] & =\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_t=s,S_{t+1}=s^{\prime}]p(s^{\prime}|s) \\ & =\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_{t+1}=s^{\prime}]p(s^{\prime}|s) \\ & =\sum_{s^{\prime}}v_\pi(s^{\prime})p(s^{\prime}|s) \\ & =\sum_{s^{\prime}}v_\pi(s^{\prime})\sum_ap(s^{\prime}|s,a)\pi(a|s) \end{aligned}
E[Gt+1∣St=s]=s′∑E[Gt+1∣St=s,St+1=s′]p(s′∣s)=s′∑E[Gt+1∣St+1=s′]p(s′∣s)=s′∑vπ(s′)p(s′∣s)=s′∑vπ(s′)a∑p(s′∣s,a)π(a∣s)
参数解释:
- G t + 1 G_{t+1} Gt+1:从时刻 t + 1 t+1 t+1开始的累积回报(可能包含折扣因子 γ ) \gamma) γ)。
- s s s和 s ′ s^{\prime} s′:当前状态和下一状态。
- p ( s ′ ∣ s ) p(s^{\prime}|s) p(s′∣s):从状态 s s s转移到 s ′ s^\prime s′的总体概率 (考虑策略 π \pi π的动作选择)。
- v π ( s ′ ) v_\pi(s^{\prime}) vπ(s′):策略 π \pi π下状态 s ′ s^{\prime} s′的价值函数。
- π ( a ∣ s ) \pi(a|s) π(a∣s):策略 π \pi π在状态 s s s选择动作 a a a的概率。
- p ( s ′ ∣ s , a ) p(s^{\prime}|s,a) p(s′∣s,a):在状态 s s s执行动作 a a a后转移到 s ′ s^\prime s′的环境动态概率。
将两个式子合并,得到:
v
π
(
s
)
=
E
[
R
t
+
1
∣
S
t
=
s
]
+
γ
E
[
G
t
+
1
∣
S
t
=
s
]
,
=
∑
a
π
(
a
∣
s
)
∑
r
p
(
r
∣
s
,
a
)
r
⏟
mean of immediate rewards
+
γ
∑
a
π
(
a
∣
s
)
∑
s
′
p
(
s
′
∣
s
,
a
)
v
π
(
s
′
)
,
⏟
mean of future rewards
=
∑
a
π
(
a
∣
s
)
[
∑
r
p
(
r
∣
s
,
a
)
r
+
γ
∑
s
′
p
(
s
′
∣
s
,
a
)
v
π
(
s
′
)
]
,
∀
s
∈
S
.
\begin{aligned} v_{\pi}(s) & =\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s], \\ & \underbrace{=\sum_a\pi(a|s)\sum_rp(r|s,a)r}_{\text{mean of immediate rewards}}+\underbrace{\gamma\sum_a\pi(a|s)\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime}),}_{\text{mean of future rewards}} \\ & =\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r+\gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right],\quad\forall s\in\mathcal{S}. \end{aligned}
vπ(s)=E[Rt+1∣St=s]+γE[Gt+1∣St=s],mean of immediate rewards
=a∑π(a∣s)r∑p(r∣s,a)r+mean of future rewards
γa∑π(a∣s)s′∑p(s′∣s,a)vπ(s′),=a∑π(a∣s)[r∑p(r∣s,a)r+γs′∑p(s′∣s,a)vπ(s′)],∀s∈S.
参数解释:
该公式是策略
π
\pi
π 下状态价值函数
v
π
(
s
)
v_\pi(s)
vπ(s) 的贝尔曼方程展开形式,描述了当前状态价值与即时奖励、未来折扣价值的递归关系。具体分解如下:
-
基础形式
v π ( s ) = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] v_{\pi}(s) = \mathbb{E}[R_{t+1}|S_t=s] + \gamma\mathbb{E}[G_{t+1}|S_t=s] vπ(s)=E[Rt+1∣St=s]+γE[Gt+1∣St=s]- 含义:状态价值分为两部分:
- 即时奖励期望 E [ R t + 1 ∣ S t = s ] \mathbb{E}[R_{t+1}|S_t=s] E[Rt+1∣St=s]:从状态 s s s 出发的下一步立即奖励的期望。
- 未来折扣价值期望 γ E [ G t + 1 ∣ S t = s ] \gamma\mathbb{E}[G_{t+1}|S_t=s] γE[Gt+1∣St=s]:从状态 s s s 出发的未来累积回报的期望,按折扣因子 γ \gamma γ 加权
- 含义:状态价值分为两部分:
-
展开为策略与环境的交互
= ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r ⏟ 即时奖励均值 + γ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ⏟ 未来奖励均值 \underbrace{=\sum_a\pi(a|s)\sum_rp(r|s,a)r}_{\text{即时奖励均值}} + \underbrace{\gamma\sum_a\pi(a|s)\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})}_{\text{未来奖励均值}} 即时奖励均值 =a∑π(a∣s)r∑p(r∣s,a)r+未来奖励均值 γa∑π(a∣s)s′∑p(s′∣s,a)vπ(s′)- 即时奖励部分:
- π ( a ∣ s ) \pi(a|s) π(a∣s):策略 π \pi π 在状态 s s s 下选择动作 a a a 的概率。
- p ( r ∣ s , a ) p(r|s,a) p(r∣s,a):在状态 s s s 执行动作 a a a 后获得立即奖励 r r r 的概率。
- 对 a a a 和 r r r 求和,得到策略与环境共同作用的即时奖励期望
- 未来价值部分:
- p ( s ′ ∣ s , a ) p(s^{\prime}|s,a) p(s′∣s,a):执行动作 a a a 后从 s s s 转移到 s ′ s' s′ 的状态转移概率。
- v π ( s ′ ) v_\pi(s^{\prime}) vπ(s′):后续状态 s ′ s' s′ 的价值函数,体现未来累积回报的期望。
- 对 a a a 和 s ′ s' s′ 求和,结合折扣因子 γ \gamma γ,得到未来价值的期望
- 即时奖励部分:
-
合并为紧凑形式
= ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] =\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r + \gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right] =a∑π(a∣s)[r∑p(r∣s,a)r+γs′∑p(s′∣s,a)vπ(s′)]- 综合意义:对每个动作 a a a,计算其即时奖励与后续状态价值的加权和,再按策略 π \pi π 的概率加权平均,形成状态 s s s 的整体价值
关键参数
- γ \gamma γ:折扣因子( 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0≤γ≤1),权衡当前与未来奖励的重要性
- π ( a ∣ s ) \pi(a|s) π(a∣s):策略函数,决定动作选择的概率分布
- p ( r ∣ s , a ) p(r|s,a) p(r∣s,a) 与 p ( s ′ ∣ s , a ) p(s^{\prime}|s,a) p(s′∣s,a):环境动态模型,分别描述奖励和状态转移的随机性
- v π ( s ) 和 v π ( s ′ ) v_π(s)和v_π(s') vπ(s)和vπ(s′)是代计算的状态值
贝尔曼方程的矩阵形式
前面我们证明了
v
π
(
s
)
=
∑
a
π
(
a
∣
s
)
[
∑
r
p
(
r
∣
s
,
a
)
r
+
γ
∑
s
′
p
(
s
′
∣
s
,
a
)
v
π
(
s
′
)
]
v_\pi(s)=\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r+\gamma\sum_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\right]
vπ(s)=a∑π(a∣s)[r∑p(r∣s,a)r+γs′∑p(s′∣s,a)vπ(s′)]
且,有:
r
π
(
s
)
≜
∑
a
π
(
a
∣
s
)
∑
r
p
(
r
∣
s
,
a
)
r
,
p
π
(
s
′
∣
s
)
≜
∑
a
π
(
a
∣
s
)
p
(
s
′
∣
s
,
a
)
r_\pi(s)\triangleq\sum_a\pi(a|s)\sum_rp(r|s,a)r,\quad p_\pi(s^{\prime}|s)\triangleq\sum_a\pi(a|s)p(s^{\prime}|s,a)
rπ(s)≜a∑π(a∣s)r∑p(r∣s,a)r,pπ(s′∣s)≜a∑π(a∣s)p(s′∣s,a)
这两个公式的意思是:
r
π
(
s
)
r_π(s)
rπ(s)表示,状态s的reward是状态s时能采取的所有action并获得的所有reward的期望
p
π
(
s
′
∣
s
)
p_π(s'|s)
pπ(s′∣s)表示状态s到s’的概率,即状态s下采取不同action的概率乘以这个action可以导致进入s‘状态的概率
有这三个式子,可以将贝尔曼方程重写为:
v
π
(
s
)
=
r
π
(
s
)
+
γ
∑
s
′
p
π
(
s
′
∣
s
)
v
π
(
s
′
)
v_\pi(s)=r_\pi(s)+\gamma\sum_{s^\prime}p_\pi(s^\prime|s)v_\pi(s^\prime)
vπ(s)=rπ(s)+γs′∑pπ(s′∣s)vπ(s′)
将它改成带下标的形式即为:
v
π
(
s
i
)
=
r
π
(
s
i
)
+
γ
∑
s
j
p
π
(
s
j
∣
s
i
)
v
π
(
s
j
)
v_\pi(s_i)=r_\pi(s_i)+\gamma\sum_{s_j}p_\pi(s_j|s_i)v_\pi(s_j)
vπ(si)=rπ(si)+γsj∑pπ(sj∣si)vπ(sj)
考虑 i和j在1到n之间变化有:
[
v
π
(
s
1
)
v
π
(
s
2
)
v
π
(
s
3
)
v
π
(
s
4
)
]
⏟
v
π
=
[
r
π
(
s
1
)
r
π
(
s
2
)
r
π
(
s
3
)
r
π
(
s
4
)
]
⏟
r
π
+
γ
[
p
π
(
s
1
∣
s
1
)
p
π
(
s
2
∣
s
1
)
p
π
(
s
3
∣
s
1
)
p
π
(
s
4
∣
s
1
)
p
π
(
s
1
∣
s
2
)
p
π
(
s
2
∣
s
2
)
p
π
(
s
3
∣
s
2
)
p
π
(
s
4
∣
s
2
)
p
π
(
s
1
∣
s
3
)
p
π
(
s
2
∣
s
3
)
p
π
(
s
3
∣
s
3
)
p
π
(
s
4
∣
s
3
)
p
π
(
s
1
∣
s
4
)
p
π
(
s
2
∣
s
4
)
p
π
(
s
3
∣
s
4
)
p
π
(
s
4
∣
s
4
)
]
⏟
P
π
[
v
π
(
s
1
)
v
π
(
s
2
)
v
π
(
s
3
)
v
π
(
s
4
)
]
⏟
v
π
.
\begin{aligned} & \underbrace{ \begin{bmatrix} v_\pi(s_1) \\ v_\pi(s_2) \\ v_\pi(s_3) \\ v_\pi(s_4) \end{bmatrix}}_{v_\pi}=\underbrace{ \begin{bmatrix} r_\pi(s_1) \\ r_\pi(s_2) \\ r_\pi(s_3) \\ r_\pi(s_4) \end{bmatrix}}_{r_\pi}+\gamma\underbrace{ \begin{bmatrix} p_\pi(s_1|s_1) & p_\pi(s_2|s_1) & p_\pi(s_3|s_1) & p_\pi(s_4|s_1) \\ p_\pi(s_1|s_2) & p_\pi(s_2|s_2) & p_\pi(s_3|s_2) & p_\pi(s_4|s_2) \\ p_\pi(s_1|s_3) & p_\pi(s_2|s_3) & p_\pi(s_3|s_3) & p_\pi(s_4|s_3) \\ p_\pi(s_1|s_4) & p_\pi(s_2|s_4) & p_\pi(s_3|s_4) & p_\pi(s_4|s_4) \end{bmatrix}}_{P_\pi}\underbrace{ \begin{bmatrix} v_\pi(s_1) \\ v_\pi(s_2) \\ v_\pi(s_3) \\ v_\pi(s_4) \end{bmatrix}}_{v_\pi}. \end{aligned}
vπ
vπ(s1)vπ(s2)vπ(s3)vπ(s4)
=rπ
rπ(s1)rπ(s2)rπ(s3)rπ(s4)
+γPπ
pπ(s1∣s1)pπ(s1∣s2)pπ(s1∣s3)pπ(s1∣s4)pπ(s2∣s1)pπ(s2∣s2)pπ(s2∣s3)pπ(s2∣s4)pπ(s3∣s1)pπ(s3∣s2)pπ(s3∣s3)pπ(s3∣s4)pπ(s4∣s1)pπ(s4∣s2)pπ(s4∣s3)pπ(s4∣s4)
vπ
vπ(s1)vπ(s2)vπ(s3)vπ(s4)
.
写成矩阵形式则为:
v
π
=
r
π
+
γ
P
π
v
π
v_\pi=r_\pi+\gamma P_\pi v_\pi
vπ=rπ+γPπvπ
其中:
v
π
=
[
v
π
(
s
1
)
,
…
,
v
π
(
s
n
)
]
T
∈
R
n
r
π
=
[
r
π
(
s
1
)
,
…
,
r
π
(
s
n
)
]
T
∈
R
n
P
π
∈
R
n
×
n
,
w
h
e
r
e
[
P
π
]
i
j
=
p
π
(
s
j
∣
s
i
)
,就是状态转移矩阵
\begin{aligned} & v_\pi=[v_\pi(s_1),\ldots,v_\pi(s_n)]^T\in\mathbb{R}^n \\ & r_\pi=[r_\pi(s_1),\ldots,r_\pi(s_n)]^T\in\mathbb{R}^n \\ & P_\pi\in\mathbb{R}^{n\times n}\mathrm{,where~}[P_\pi]_{ij}=p_\pi(s_j|s_i)\text{,就是状态转移矩阵} \end{aligned}
vπ=[vπ(s1),…,vπ(sn)]T∈Rnrπ=[rπ(s1),…,rπ(sn)]T∈RnPπ∈Rn×n,where [Pπ]ij=pπ(sj∣si),就是状态转移矩阵
状态值的求解
v
π
=
r
π
+
γ
P
π
v
π
v_\pi=r_\pi+\gamma P_\pi v_\pi
vπ=rπ+γPπvπ,进行一个简单的矩阵运算,则:
v
π
=
(
I
−
γ
P
π
)
−
1
r
π
v_\pi=(I-\gamma P_\pi)^{-1}r_\pi
vπ=(I−γPπ)−1rπ
由于矩阵的逆不好求解,所以一般不采用这种方式。
另一种迭代的方式:
v
k
+
1
=
r
π
+
γ
P
π
v
k
v
k
→
v
π
=
(
I
−
γ
P
π
)
−
1
r
π
,
k
→
∞
v_{k+1}=r_\pi+\gamma P_\pi v_k \\ v_k\to v_\pi=(I-\gamma P_\pi)^{-1}r_\pi,\quad k\to\infty
vk+1=rπ+γPπvkvk→vπ=(I−γPπ)−1rπ,k→∞
当k迭代到无穷时,这时的
v
k
v_k
vk就趋向于真正的解,思想类似高数的求极限
动作价值函数与状态价值函数的关系
动作价值函数:
v
k
→
v
π
=
(
I
−
γ
P
π
)
−
1
r
π
,
k
→
∞
v_k\to v_\pi=(I-\gamma P_\pi)^{-1}r_\pi,\quad k\to\infty
vk→vπ=(I−γPπ)−1rπ,k→∞
又:
E
[
G
t
∣
S
t
=
s
]
⏟
v
π
(
s
)
=
∑
a
E
[
G
t
∣
S
t
=
s
,
A
t
=
a
]
⏟
q
π
(
s
,
a
)
π
(
a
∣
s
)
\underbrace{\mathbb{E}[G_t|S_t=s]}_{v_\pi(s)}=\sum_a\underbrace{\mathbb{E} [G_t|S_t=s,A_t=a]}_{q_\pi(s,a)}\pi(a|s)
vπ(s)
E[Gt∣St=s]=a∑qπ(s,a)
E[Gt∣St=s,At=a]π(a∣s)
因此
v
π
(
s
)
=
∑
a
π
(
a
∣
s
)
q
π
(
s
,
a
)
v_\pi(s)=\sum_a\pi(a|s)q_\pi(s,a)
vπ(s)=a∑π(a∣s)qπ(s,a)
再次回顾这个式子:
v
π
(
s
)
=
∑
a
π
(
a
∣
s
)
[
∑
r
p
(
r
∣
s
,
a
)
r
+
γ
∑
s
′
p
(
s
′
∣
s
,
a
)
v
π
(
s
′
)
]
v_π(s)=\sum_a\pi(a|s)\left[\sum_rp(r|s,a)r + \gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})\right]
vπ(s)=a∑π(a∣s)[r∑p(r∣s,a)r+γs′∑p(s′∣s,a)vπ(s′)]
那么可以得到:
q
π
(
s
,
a
)
=
∑
r
p
(
r
∣
s
,
a
)
r
+
γ
∑
s
′
p
(
s
′
∣
s
,
a
)
v
π
(
s
′
)
q_π(s,a)=\sum_rp(r|s,a)r + \gamma\sum_{s^{\prime}}p(s^{\prime}|s,a)v_\pi(s^{\prime})
qπ(s,a)=r∑p(r∣s,a)r+γs′∑p(s′∣s,a)vπ(s′)