2、强化学习自适应转移率实验与数据流聚类框架

强化学习自适应转移率实验与数据流聚类框架

在当今的机器学习领域,强化学习中的转移率优化以及数据流聚类都是重要的研究方向。下面将详细介绍强化学习自适应转移率实验和基于在线近期偏置近似的数据流聚类框架。

强化学习自适应转移率实验

在强化学习中,$\frac{\partial V_t}{\partial \phi}$ 可能并不适用,该问题实际上是一个典型的多臂老虎机问题。连续臂老虎机问题属于多臂老虎机问题家族,它非常适合用于优化 $V_t(\phi)$。

以往有针对该问题的不同算法,如文献中提出的随机版本问题对应的 UCBC 算法,以及解决对抗版本问题的 CAB1 算法。而在实际情况中,收益 $\sum_{k} r_{t + k}\gamma^k$ 是随机且随时间变化的,因此需要一种将这两种情况进行推广的方法,即随机对抗连续臂老虎机问题。

随机对抗连续臂老虎机问题定义
假设存在一个由 $x \in [0, 1]$ 和 $t \in {1 \cdots n}$ 索引的未知分布族 $P(. | x, t)$。在每次试验 $t$ 时,学习者选择 $X_t \in [0, 1]$ 并获得回报 $Y_t \sim P(. | X_t, t)$。设 $b_t(x) \triangleq E [Y_t | X_t = x, t]$。给定 $x^ = \sup_{x \in [0, 1]} \sum_{t = 1}^{n} b_t(x)$,代理的目标是最小化其预期遗憾 $E [\sum_{t} b_t(x^ ) - \sum_{t} Y_t]$。

虽然这种设定比对抗情况更具一般性,但 CA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值