基本概念
**策略函数(policy)**是根据观测到的状态做出决策
策略函数
π
\pi
π:S
×
\times
× A
→
\rightarrow
→[0,1]是一个条件概率函数:
π
\pi
π(a|s) = P(A = a | S = s)
策略函数的输入是状态s和动作a,输出是一个0到1之间的概率值
奖励(reward)是在智能体执行一个动作之后,环境返回给智能体的一个数值
状态转移是指当前状态 s 变成新的状态 s’,状态转移的随机性来源于环境
状态转移函数是环境用于生成新的状态时用到的函数
随即状态转移函数p(s’|s,a)=P(S’=s’,A=a)
意思是:如果观察到当前状态s以及动作a,那么p函数输出状态变成s’的概率
动作的随机性来源于策略函数
状态的随机性来源于状态转移函数
回报(return) *[累计奖励]*是指从当前时刻开始到一回合结束的所有奖励的总和,强化学习的目标是最大化回报,不是最大化当前的奖励
U
t
U_{t}
Ut =
R
t
R_{t}
Rt +
R
t
+
1
R_{t+1}
Rt+1 +
R
t
+
2
R_{t+2}
Rt+2 +
R
t
+
3
R_{t+3}
Rt+3 + ···
但是在 t 时刻,除了
R
t
R_{t}
Rt 以外的奖励对 t 时刻回报的重要性是依次降低的,因此 t 时刻的回报需要打一个折扣,即
U
t
U_{t}
Ut =
R
t
R_{t}
Rt +
γ
γ^{}
γ·
R
t
+
1
R_{t+1}
Rt+1 +
γ
2
γ^{2}
γ2·
R
t
+
2
R_{t+2}
Rt+2 +
γ
3
γ^{3}
γ3·
R
t
+
3
R_{t+3}
Rt+3 + ···
价值函数
目的
在 t 时刻,我们不知道
U
t
U_{t}
Ut 的值,而我们又想预判
U
t
U_{t}
Ut 的值从而知道局势的好坏,解决方案就是对
U
t
U_{t}
Ut 求期望,消除掉其中的随机性
Q
π
Q_{\pi}
Qπ(s,a)意思是在已经观测到的(s,a)情况下,
U
t
U_{t}
Ut 的期望