25、强化学习中的探索与模型学习

于 2025-09-07 14:05:03 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：决策算法：智能选择的艺术文章标签：强化学习探索与利用多臂老虎机

本文链接：https://blog.youkuaiyun.com/read5/article/details/152386358

决策算法：智能选择的艺术专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习中的探索与模型学习

1. 多状态下的探索

在有限时间范围 $h$ 的情况下，我们可以为整个信念空间计算 $Q^ $。首先从所有终端信念状态开始，其中 $\sum_a(w_a + \ell_a) = h$，此时 $U^ = 0$。然后逆向推导到 $\sum_a(w_a + \ell_a) = h - 1$ 的状态，并应用相应方程。重复这个过程，直到达到初始状态。例如在一个两步的双臂老虎机问题中，构建的状态 - 动作树如下：
| 状态向量 | $U^*$ 值 |
| ---- | ---- |
| $[0, 0, 0, 0]$ | $1.083$ |
| $[1, 0, 0, 0]$ | $2/3$ |
| $[0, 1, 0, 0]$ | $1/2$ |
| $[0, 0, 1, 0]$ | $2/3$ |
| $[0, 0, 0, 1]$ | $1/2$ |

这个策略对于手臂 1 和手臂 2 是对称的。最优策略是优先拉动获胜的手臂两次，而避免拉动失败的手臂两次。最优值函数的计算示例如下：

Q∗([1, 0, 0, 0], 1) = 2/3(1 + 0) + 1/3(0) = 2/3
Q∗([1, 0, 0, 0], 2) = 1/2(1 + 0) + 1/2(0) = 1/2
Q∗([0, 1, 0, 0], 1) = 1/3(1 + 0) + 2/3(0) = 1/3
Q∗([0, 1, 0, 0], 2) = 1/2(1 + 0) + 1/2(0) = 1/2
Q∗([0, 0, 0, 0], 1) = 1/2