强化学习自适应转移率实验与数据流聚类框架
在当今的机器学习领域,强化学习中的转移率优化以及数据流聚类都是重要的研究方向。下面将详细介绍强化学习自适应转移率实验和基于在线近期偏置近似的数据流聚类框架。
强化学习自适应转移率实验
在强化学习中,$\frac{\partial V_t}{\partial \phi}$ 可能并不适用,该问题实际上是一个典型的多臂老虎机问题。连续臂老虎机问题属于多臂老虎机问题家族,它非常适合用于优化 $V_t(\phi)$。
以往有针对该问题的不同算法,如文献中提出的随机版本问题对应的 UCBC 算法,以及解决对抗版本问题的 CAB1 算法。而在实际情况中,收益 $\sum_{k} r_{t + k}\gamma^k$ 是随机且随时间变化的,因此需要一种将这两种情况进行推广的方法,即随机对抗连续臂老虎机问题。
随机对抗连续臂老虎机问题定义 :
假设存在一个由 $x \in [0, 1]$ 和 $t \in {1 \cdots n}$ 索引的未知分布族 $P(. | x, t)$。在每次试验 $t$ 时,学习者选择 $X_t \in [0, 1]$ 并获得回报 $Y_t \sim P(. | X_t, t)$。设 $b_t(x) \triangleq E [Y_t | X_t = x, t]$。给定 $x^ = \sup_{x \in [0, 1]} \sum_{t = 1}^{n} b_t(x)$,代理的目标是最小化其预期遗憾 $E [\sum_{t} b_t(x^ ) - \sum_{t} Y_t]$。
虽然这种设定比对抗情况更具一般性,但 CA
超级会员免费看
订阅专栏 解锁全文
1654

被折叠的 条评论
为什么被折叠?



