Reinforcement learning：an introduction 课后习题

Kuioma

已于 2024-03-14 16:17:12 修改

阅读量1.1k

点赞数 23

文章标签：人工智能

于 2024-01-03 16:23:28 首次发布

本文链接：https://blog.youkuaiyun.com/JTB__JJ/article/details/135363626

版权

本文探讨了ε-greedy策略在强化学习中的应用，重点介绍了如何平衡探索新动作与利用已知最优动作的决策过程。通过Q-learning算法和ε值调整，文章展示了探索对长期奖励的影响以及在迷宫环境中的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

section 2

2.1

设两个行动分别为 $a_1,a_2$ , $Q_t(a_1) > Q_t(a_2)$ ,即行动 $a_1$ 为greedy action
$P(A_t = a_1)$ = $\cdot (1- \varepsilon)$ + $\cdot \varepsilon \cdot0.5$ =0.75

2.2

$A_5$ 必定是 $\varepsilon$ 发生的time step 剩余的都是可能发生的time step

2.3

定量来看的的话累计奖励就是平均奖励的积分，1000steps来看的明显是 $\varepsilon = 0.1$ 的时候大，当时间趋于无穷时 $\varepsilon=0.01$ 更大，因为在找到最优行动后无效探索次数要比 $\varepsilon=0.1$ 时小小十倍。

2.4

$\begin{aligned} Q_{n+1} &= Q_n +\alpha_n(R_n-Q_n)=(1-\alpha_n)Q_n+\alpha R_n \\ &=(1-\alpha_n)(1-\alpha_{n-1})Q_{n-1}+\alpha_{n-1} (1-\alpha_n)(1-\alpha_{n-1})R_{n-1}+\alpha_nR_n \\ &=(1-\alpha_n)...(1-\alpha_1)Q_1+\alpha_1(1-\alpha_n)...(1-\alpha_1)R_1+...+\alpha_nR_n \\ &=\prod^{n}_{i=1}(1-\alpha_i)Q_1+\sum^{n}_{k=1}\alpha_kR_k\prod_{i=k}^{n}(1-\alpha_i) \end{aligned}$

2.5

https://github.com/JTBBB-J/rl_learn.git
非静态情况下，stepsize为常值的reward
非静态情况下，stepsize为常值的最优行动率

2.6

尖刺情况出现在早期，应该就是在全部行动都采取过一次后bestaction的estimated value最大然后执行greedy action（由于初期所以estimated value受到的影响大），这一次执行后又导致estimated value 降低执行其他行动。

2.7

不会

2.8

前十次会把所有行动再试一次，然后第十一次由于N都为1所以必定执行greedy action，之后由于c比较大则会平凡选择那些选择次数少的行动，也就是会倾向于探索所以会导致value猛然下降。

2.9

一除分子就行

3.6

$G_t = \begin{cases} 0& \\ -\delta_{T-1}& \end{cases}$

3.7

机器人不知道跑出迷宫会有奖励，且呆在迷宫中没有负的奖励，所以会导致机器人一直呆在迷宫中不会去找出口

3.8

带入公式就行

3.9

$G_0 = 2 + 7\delta + 7\delta^2+.... = 2+7(\frac{1}{1-\delta}-1)=65$
$G_1$ 就是少了第一项所以就是63

3.10

就是级数算法

3.11

$E[R_{t+1}] = \sum_{a}\pi(a|s)\sum_{r \in R}r_{t+1}\sum_{s\in s'}P(r_{t+1},s_{t+1}|s_t,a_t)$

3.12

$\begin{aligned} V_\pi(s) &= E[G_t|S_t =s] = \sum G_tP(G_t|S_t) \\ &= \sum_s G_t(\sum_a P(A_t|S_t)P(G_t|A_t,S_t)) \\ &= \sum_a P(A_t|S_t) q_\pi(s,a) = \sum_a \pi(a|s)q_\pi(s,a) \end{aligned}$

3.13

不会

3.14

$\begin{aligned} \sum\pi(a|s)\sum p(s',r|s,a)[r+\delta v_\pi(s')]&=0.25(0.9*0.4)+0.25(0.9*2.3)+0.25(0.9*0.7)+0.25(0.9*(-0.4)) \\ &=0.675 \end{aligned}$
这里其实没太搞懂为什么不把从b到b’得到+5reward的概率算上，有大佬能解答一下吗

3.15

$G_t' = \sum \delta^k(R_{t+k+1}+c)=\sum \delta^k(R_{t+k+1})+\sum\delta^kc=\sum \delta^k(R_{t+k+1})+\frac{c}{1-\delta}$
$v_\pi=E[Gt'|S_t=s] = E[G_t|S_t=s]+\frac{c}{1-\delta}$