值函数
V
π
(
S
t
)
V^π(S_t)
Vπ(St)定义

蒙特卡洛(监督学习方法)
让
V
π
V^π
Vπ无限接近
G
a
G_a
Ga(也就是
∑
t
=
1
n
r
t
\sum_{t=1}^{n}r^t
∑t=1nrt)

TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾
(监督学习)regression问题
l
o
s
s
loss
loss =
V
π
(
S
t
)
−
V
π
(
S
t
+
1
)
−
r
t
V^π(S_t)-V^π(S_{t+1})-r_t
Vπ(St)−Vπ(St+1)−rt

Q value
