强化学习笔记-02多臂老虎机问题

本文是博主对《Reinforcement Learning- An introduction》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考。

1. 多臂老虎机问题

 多臂老虎机问题是指存在K个老虎机,每个老虎机的获胜金额是一个未知的概率分布且相互独立,假设我们有N次参与机会,如何选择每次参与的老虎机才能使得累积获胜金额最大?

对于这个问题,我们首先可以知道,每次选择的老虎机应该是期望获胜金额最大的机器,即:

A_t = arg max_a\ Q(a),\ Q(a) = E[R|a]

A_t表示第t次选择的老虎机,Q(a)表示老虎机a的期望获胜金额,由于实际上我们只能根据历史数据进行估计,实际的形式为:

A_t = arg max_a\ Q_t(a),\ Q_t(a) = E[R_t|a]

所以对于多臂老虎机问题最本质的问题在于对Q(a)的预估,这同强化学习中的价值函数V(s)及Q(s,a)是类似的。Q(a)的计算相对是简单的,其表示的期望可以由历史获胜金额的均值来表示。

Q_t(a) = \frac{R_1(a)+R_2(a)+... +R_{t-1}(a)}{n-1} \\ = \frac{1}{n-1}(R_{t-1}(a) + (n-2)Q_{t-1}(a)) \\ = Q_{t-1}(a) + \frac{1}{n-1}(R_{t-1}(a) - Q_{t-1}(a))

上式中的R(a)表示每次选择老虎机a时的奖励,n表示总共选择a的次数,Q_{t-1}(a)表示前一次选择老虎机a时的奖励预估。上式代表了新Q(a)是通过旧Q(a)进行更新的。

但是由于参与次数是有限的,一方面我们需对每个老虎机a进行大量的参与,才能对Q(a)进行较精确估计,另一方面为了保证整体的收益,我们需要尽可能地参与Q(a)高的老虎机。前者类似于强化学习中的explore过程,后者类似于exploit过程,如何去平衡这两者

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值