强化学习中的探索与模型学习
1. 多状态下的探索
在有限时间范围 $h$ 的情况下,我们可以为整个信念空间计算 $Q^ $。首先从所有终端信念状态开始,其中 $\sum_a(w_a + \ell_a) = h$,此时 $U^ = 0$。然后逆向推导到 $\sum_a(w_a + \ell_a) = h - 1$ 的状态,并应用相应方程。重复这个过程,直到达到初始状态。例如在一个两步的双臂老虎机问题中,构建的状态 - 动作树如下:
| 状态向量 | $U^*$ 值 |
| ---- | ---- |
| $[0, 0, 0, 0]$ | $1.083$ |
| $[1, 0, 0, 0]$ | $2/3$ |
| $[0, 1, 0, 0]$ | $1/2$ |
| $[0, 0, 1, 0]$ | $2/3$ |
| $[0, 0, 0, 1]$ | $1/2$ |
这个策略对于手臂 1 和手臂 2 是对称的。最优策略是优先拉动获胜的手臂两次,而避免拉动失败的手臂两次。最优值函数的计算示例如下:
Q∗([1, 0, 0, 0], 1) = 2/3(1 + 0) + 1/3(0) = 2/3
Q∗([1, 0, 0, 0], 2) = 1/2(1 + 0) + 1/2(0) = 1/2
Q∗([0, 1, 0, 0], 1) = 1/3(1 + 0) + 2/3(0) = 1/3
Q∗([0, 1, 0, 0], 2) = 1/2(1 + 0) + 1/2(0) = 1/2
Q∗([0, 0, 0, 0], 1) = 1/2
超级会员免费看
订阅专栏 解锁全文
22万+

被折叠的 条评论
为什么被折叠?



