Reinforcement Learning:An introduction读书笔记-Chapter 3

最新推荐文章于 2025-06-26 19:38:54 发布

翻译最新推荐文章于 2025-06-26 19:38:54 发布 · 1.3k 阅读

RL: An introduction 读书笔记专栏收录该内容

3 篇文章

订阅专栏

本文探讨了有限马尔科夫决策过程(MDP)的基本概念，包括环境与智能体的交互界面、目标与奖励设置原则、回报计算方法，并介绍了状态与动作价值函数的概念及其重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Chapter 3 Finite Markov Decision Processes

3.1 The Agent-Environment Interface

在每一步t，agent都会接收到环境的state， $S_t\in \mathcal{S}$ ，在此基础上选择一个action， $A_t\in\mathcal{A}(S_t)$ ，即在state S下所有可选的action。在下一步中，agent收到了reward(reward是在agent之外的)， $R_{t+1}$ ,并且发现自己在一个新的state， $S_{t+1}$ 。

在每一步agent都会有一个关于states到选择某个action可能性的映射，这就是policy， $\pi_t(a|s)$ 即为在state s 时选择action a的可能性。

所有不能被agent直接改变的就是environment，agent-environment的界限是绝对控制而不是是否能得到完整的信息。

3.2 Goals and Rewards

选取reward时必须满足agent让reward最大化同时也能达成我们设定的目标。告知它你想达到的目标是什么，而不是如何达到这个目标。比如在围棋中，我们应将赢得棋局的reward设置为+1，而不是吃到敌方棋子作为+1，否则agent可能会以输掉棋局的代价吃到更多敌方棋子。

我们将reward定义在agent之外并不妨碍有些agent拥有内在的reward(internal rewards)

3.3 Returns

return $G_t$ 是关于reward序列的某一个函数。
episodic tasks：agent-environment交互可以很自然的被分成称为episodes的子序列的tasks。 $\mathcal{S}_+$ 用来表示terminal state。在这种情况下其return一般定义如下(T即terminal state)：

G t ≐ R t + 1 + R t + 2 + R t + 3 + . . . + R T

$G_t \doteq R_{t+1} + R_{t+2} + R_{t+3} + ... + R_T$
continuing tasks:在很多情况下agent-environment交互不能被很自然的分成定义好的episodes，而是无限制的一直连续下去，或者要持续很长时间。return的一般定义如下：

G t ≐ R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . = \sum k = 0 \infty γ k R t + k + 1

$G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum^\infty_{k=0}\gamma^k R_{t+k+1}$
其中

0≤γ≤1 $0\leq\gamma\leq1$ ，被称为discount rate。如果

γ<1 $\gamma < 1$ ,只要

Rk $R_k$ 是有界的，那么无限的加和式是有限的值，当

γ=0 $\gamma = 0$ 说明其只看重即时的reward，

γ $\gamma$ 越靠近1说明其将未来的reward看的越重。

3.4 Unified Notation for Episodic and Continuing Tasks

$S_{t,i}$ :在第i个episode，t时间节点时的state，action，reward，policy等可以此类推
为了让episodic task和continuing task可以一同表示，我们将episode 的结束看作是一个特殊的state，absorbing state，在这个state它只会从该状态转化为自己本身，reward为0。

就像上图所示，整个reward sequence就可以看成+1,+1,+1,0,0,…就转化成了一个无限的序列。这样一来无论是episodic task还是continuing task的return就可以统一定义成下式，只是涵盖了 $\gamma = 1$ 或 $T=\infty$ 的可能性(两个可能性不能同时满足，在第十章会引入共存的情况。)

G t ≐ \sum k = 0 T - t - 1 γ k R t + k + 1

$G_t \doteq \sum_{k=0}^{T-t-1} \gamma^k R_{t+k+1}$

3.5 The Markov Property

Markov property:
一般情况下在t+1时environment做出的对于在t时action的回应是由之前所有发生过的事情决定的，可以用下式表示。

P r {S t + 1 = s', R t + 1 = r | S 0, A 0, R 1, . . ., S t - 1, A t - 1, R t, S t, A t}

$\mathrm{Pr}\{S_{t+1} = s',R_{t+1} = r| S_0,A_0,R_1,...,S_{t-1},A{t-1},R_t,S_t,A_t\}$
如果一个state signal有Markov property，t+1时刻environment做出的回应值决定于t时的state和action，可用下式表示：

p (s', r | s, a) ≐ P r S t + 1 = s', R t + 1 = r | S t = s, A t = a

$p(s',r|s,a)\doteq \mathrm{Pr}{S_{t+1}=s',R_{t+1}=r|S_t=s,A_t=a}$
换句话说，一个state signal有Markov property并是Markov state当且仅当对所有

s′,r $s',r$ 及所有历史state和action而言第一个式子都是等于

p(s′,r|St,At) $p(s',r|S_t,A_t)$ 的。在这种情况下environment和task本身都满足Markov property。

如果一个environment满足Markov property，只要给出现在的state和action就可以预测出下一个state和期望得到的reward。只要不断的重复这个过程，就可以推测出未来所有的state和期望得到的reward，其效果和知道所有到目前为止完整的历史state与action一样。也就是说一个关于Markov state的最优policy函数是与关于所有历史信息的最优policy函数一样可靠的。
就算一个state不是完全符合Markov的，但我们可以把它想做一个接近markov的状态。

3.6 Markov Decision Processes

一个满足markov性质的增强学习task叫做markov decison process或者MDP，如果state和action的空间都是有限的就叫做有限MDP。
一个典型的有限MDP，是由state和action集以及每一步环境的动态变化定义的。只要给出state s和action a，以及所有下一个可能成为的state和获得的reward，就可以计算出所有关于环境的信息，比如state action对的期望reward、state的转化概率、满足state-action-next-state的三元组的reward的数学期望等。finit MDP可以写做可以写做

p (s', r | s, a) ≐ P r {S t + 1 = s', R t + 1 = r | S t = s, A t = a}

$p(s',r|s,a)\doteq Pr\{S_{t+1}=s',R_{t+1}=r|S_t = s,A_t = a\}$
state-action对的期望reward则可以写做

r (s, a) ≐ E [R t + 1 | S t = s, A t = a] = \sum r \in R r \sum s' \in S p (s', r | s, a)

$r(s,a)\doteq\mathbb{E}[R_{t+1}|S_t=s,A_t=a]=\sum_{r\in \mathcal{R}}r\sum_{s' \in \mathcal{S}} p(s',r|s,a)$
state的转化概率可以写做

p (s | s', a) ≐ P r {S t + 1 = s' | S t = s, A t = a} = \sum r \in R p (s', r | s, a)

$p(s|s',a)\doteq Pr\{S_{t+1} = s'|S_t=s,A_t=a\}=\sum_{r\in \mathcal{R}}p(s',r|s,a)$
满足state-action-next-state的三元组的reward的数学期望可以写成

r (s, a, s') ≐ E [R t + 1 | S t = t, A t = a, S t + 1 = s'] = \sum r \in R r p ( s ' , r | s , a ) p ( s ' | s , a )

$r(s,a,s')\doteq\mathbb{E}[R_{t+1}|S_t=t,A_t=a,S_{t+1}=s']=\frac{\sum_{r\in\mathcal{R}}rp(s',r|s,a)}{p(s'|s,a)}$
事实上就是在

St=s,At=a,St+1=s′ $S_t=s,A_t=a,S_{t+1}=s'$ 的情况下reward的数学期望，每个reward占到的概率是

p(s′,r|s,a)p(s′|s,a) $\frac{p(s',r|s,a)}{p(s'|s,a)}$

在transition graph中有state nodes和action nodes，一个action node对应的所有的转化概率加起来为1，下图是一个transition graph，大的圆(里面写着low 和 high的)是state nodes，小的实心的是action node。每个箭头上前面那个数字是转化的概率，后面那个数字是对应三元组的reward的期望。

Value Function

value function是一个评估某个state的好坏，或者是在某个state采取某个action的好坏。这里的好坏指的是可以期望的未来的reward。
$v_\pi(s)$ 表示的是state s在 policy $\pi$ 条件下的value。

v π (s) ≐ E π [G t | S t = s] = E π [\sum k = 0 \infty γ k R t + k + 1 | S t = s]

$v_\pi(s)\doteq\mathbb{E}_\pi[G_t|S_t=s]=\mathbb{E}_\pi[\sum^\infty_{k=0}\gamma^k R_{t+k+1}|S_t=s]$

Eπ[⋅] $E_\pi[\cdot]$ 代表的是在policy

π $\pi$ 情况下任意时刻的期望。所有的terminal state的value都是0，

vπ $v_\pi$ 函数是policy

π $\pi$ 的state-value function。

qπ(s,a) $q_{\pi}(s,a)$ 代表的是在state s并在policy

π $\pi$ 的情况下采取action a 的reward的期望。

q π (s, a) ≐ E π [G t | S t = s, A t = a] = E [\sum k = 0 \infty γ k R t + k + 1 | S t = s, A t = a]

$q_{\pi}(s,a)\doteq\mathbb{E}_\pi[G_t|S_t=s,A_t=a]=\mathbb{E}[\sum_{k=0}^\infty \gamma^k R_{t+k+1}|S_t=s,A_t=a]$

qπ $q_\pi$ 是policy

π $\pi$ 的 action-value function。

vπ(s) $v_\pi(s)$ 满足下述递归式。

v π (s) ≐ E π [\sum k = 0 \infty γ k R t + k + 1 | S t = s] = E π [R t + 1 + γ \sum k = 0 \infty γ k R t + k + 2 | S t = s] = \sum a π (a | s) \sum s' \sum r p (s', r | s, a) [r + γ E π [\sum k = 0 \infty γ k R t + k + 2 | S t + 1 = s']] / / π (a | s) 是 在 s t a t e s 选 择 某 一 a 的 概 率 ， \sum 即 所 有 可 能 a c t i o n 的 和 / / p 是 转 换 到 s' 并 得 到 r e w a r d r 的 概 率, 两 个 \sum 即 所 有 可 能 r 和 s' 的 和 / / 后 面 中 括 号 里 的 是 本 次 的 r e w a r d r 加 上 未 来 的 r e w a r d 的 期 望 就 是 v a l u e = \sum a π (a | s) \sum s', r p (s', r | s, a) [r + γ v π (s')]

$\begin{aligned} v_\pi(s)&\doteq\mathbb{E}_\pi[\sum^\infty_{k=0}\gamma^k R_{t+k+1}|S_t=s] \\&=\mathbb{E}_\pi[R_{t+1}+\gamma\sum^\infty_{k=0}\gamma^k R_{t+k+2}|S_t=s] \\&=\sum_a \pi(a|s)\sum_{s'}\sum_r p(s',r|s,a)[r+\gamma\mathbb{E}_\pi[\sum^\infty_{k=0}\gamma^k R_{t+k+2}|S_{t+1}=s']] \\&//\pi(a|s)是在state\ s选择某一a的概率，\sum即所有可能action的和 \\&//p是转换到s'并得到reward\ r的概率,两个\sum即所有可能r和s'的和 \\&//后面中括号里的是本次的reward\ r加上未来的reward的期望就是value \\&=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')] \end{aligned}$
上式就是对于

vπ $v_\pi$ 的Bellman equation,下图就是backup diagrams，它表示了增强学习中一个很重要的操作backup：将value的信息从后续的state回传给上一个state

Optimal Value Function

当且仅当对于所有 $s\in\mathcal{S}$ 都有 $v_\pi(s)\ge v_{\pi'}(s)$ ，则称 $\pi\ge\pi'$ 。总存在至少这样一个policy是优于或等于其他所有的policy的，这就是optimal policy，用 $\pi_*$ 来表示。optimal policy可能有很多个，但它们都共享同样的state-value function，记作 $v_*$ 。并且满足下式：

v * (s) ≐ max π v π (s) \forall s \in S

$v_*(s)\doteq \mathop{\max}_\pi v_\pi(s)\quad\forall s\in\mathcal{S}$
它们也共享相同的optimal action-value function，记作

q∗ $q_*$ ，可以定义成

q * (s, a) ≐ max π q π (s, a)

$q_*(s,a)\doteq \mathop{\max}_\pi q_\pi(s,a)$
也可以写成

v∗ $v_*$ 的形式

q * (s, a) = E [R t + 1 + γ v * (S t + 1) | S t = s, A t = a]

$q_*(s,a)=\mathbb{E}[R_{t+1}+\gamma v_*(S_{t+1})|S_t=s,A_t=a]$
因为

v∗(s) $v_*(s)$ 是最优的，所以它的值必定等于在那个state最优的action的return，也就可以表示成

v * (s) = max a \in A (s) q π * (s, a) = max a E π * [\sum k = 0 \infty γ k R t + k + 1 | S t = s, A t = a] = max a E [R t + 1 + γ v * (S t + 1) | S t = s, A t = a] = max a \in A (s) \sum s', r p (s', r | s, a) [r + γ v * (s')]

$\begin{aligned} v_*(s) &= \mathop{\max}_{a\in \mathcal{A}(s)}q_{\pi_*}(s,a) \\&=\mathop{\max}_{a}\mathbb{E}_{\pi_*}[\sum^\infty_{k=0}\gamma^k R_{t+k+1}|S_t=s,A_t=a] \\&=\mathop{\max}_{a}\mathbb{E}[R_{t+1}+\gamma v_*(S_{t+1})|S_t=s,A_t=a] \\&=\mathop{\max}_{a\in \mathcal{A}(s)}\sum_{s',r}p(s',r|s,a)[r+\gamma v_*(s')] \end{aligned}$

q∗ $q_*$ 也可以换一种表达方式

q * (s, a) = \sum s', r p (s', r | s, a) [r + γ max a' q * (s', a')]

$q_*(s,a) = \sum_{s',r}p(s',r|s,a)[r+\gamma \mathop{\max}_{a'}q_*(s',a')]$
上述式子称为Bellman optimality equation
事实上我们只要知道

p(s′,r|s,a) $p(s',r|s,a)$ 就可以通过上述的式子推导出

v∗ $v_*$ ，因为每个s有这样一个等式，如果有N个state也就有N个等式，有N个未知数，就可以通过非线性方程解出来。得到了

v∗ $v_*$ 也就可以得出

q∗ $q_*$ 。这也就意味着我们只要在每个state greedy地找到一个action使得Bellman optimality equation最大化就可以了。本来greedy是一个短期的概念，但因为value本来就考虑了长远的reward，就使得只要greedy地专注于短期的或者说某一步的最优就可以得到长期的最优，就将return从长期转化到了每个state局部、立马可得的。
虽然接触Bellman optimality equation可以得到最优的policy，但是很少是直接有效的，因为这要求穷举，找出所有的可能性。这个解决方案建立在至少以下3个假设上：