【动手学强化学习】02多臂老虎机

最新推荐文章于 2025-02-15 22:34:46 发布

误伤这又何妨

最新推荐文章于 2025-02-15 22:34:46 发布

阅读量906

点赞数 7

分类专栏：动手学强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_61552056/article/details/145650218

版权

问题定义

强化学习关注的是在于环境交互中学习，是一种试错学习的范式。在正式进入强化学习之前，我们先来了解多臂老虎机问题。该问题也被看作简化版的强化学习，帮助我们更快地过度到强化学习阶段。

有一个拥有 $K$ 根拉杆的老虎机，拉动每根拉杆都有着对应奖励 $R$ ，且这些奖励可以进行累加。在各根拉杆的奖励分布未知的情况下，从头开始尝试，在进行 $T$ 步操作次数后，得到尽可能高的累计奖励。
在这里插入图片描述

对于每个动作 $a$ ，我们定义其期望奖励是 $Q (a)$ 。是，至少存在一根拉杆，它的期望奖励不小于拉动其他任意一根拉杆，我们将该最优期望奖励表示为
$Q^* = \max_{a \in A}Q(a)$
为了更为直观的表示实际累计奖励和真实累计奖励之间的误差，我们引入懊悔概念，用来表示它们之间的差值。
$R(a) = Q^* - Q(a)$

下面我们编写代码来实现一个拉杆数为 10 的多臂老虎机。其中拉动每根拉杆的奖励服从伯努利分布（Bernoulli distribution），即每次拉下拉杆有的概率获得的奖励为 1，有的概率获得的奖励为 0。奖励为 1 代表获奖，奖励为 0 代表没有获奖。

import numpy as np
import matplotlib.pyplot as plt
class BernouliiBandit:
    def __init__(self, K):
        self.probs:np.ndarray = np.random.uniform(size=K)  # type: ignore # 随机生成K个0～1的数,作为拉动每根拉杆的获奖 #
        # 概率
        self.best_idx = np.argmax(self.probs)  # 获奖概率最大的拉杆
        self.best_prob = self.probs[self.best_idx]  # 最大的获奖概率
        self.K = K
    def step(self, k

最低0.47元/天解锁文章

误伤这又何妨

博客等级

码龄4年

50
原创

656
点赞

684
收藏

376
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 【动手学强化学习】01初探强化学习

下一篇：: 【动手学强化学习】03马尔可夫决策过程

最新评论

windows台式机用作服务器并实现ssh远程连接
误伤这又何妨: 服务器是远程主机，客户端是本机。ssh的作用是通过本机访问远程主机。所以服务器（远程主机）装ssh-server+固定IP，客户端（本机）安装xshell进行远程访问。
windows台式机用作服务器并实现ssh远程连接
Hi,Man go!: 没看懂，到底哪台是服务器，哪台是客户端。是服务器也是win10系统，客户端也是win10吗？谁装ssh服务器，谁固定IP，谁装xhshell？
使用 LVM 将多个硬盘合并，解决 /home 目录容量不足问题
YASEBER: 文章写的很好，按照文章操作成功地将我的两块机械硬盘组成一块虚拟硬盘挂载在/home上。不过有一点波折：我在安装系统的时候，在划分分区那一步选择了LVM，所以在按照文中教程执行到mv /home /home_old（这一步需要在图形界面登录root用户，然后在命令行中执行mv /home /home_old，在普通用户下用命令行su root然后执行mv /home /home_old会失败）这一步的时候报错了：/home繁忙。因为此时我的/home也是虚拟硬盘。需要先umount /home。然后mv /home /home_old，剩下的按照教程就行了。
使用 LVM 将多个硬盘合并，解决 /home 目录容量不足问题
YASEBER: 我想是的，它的数据已经被复制，它也没用了。
解决bing搜索总是显示【没有与此相关的结果，检查拼写或尝试其他关键字】
sinat_41877285: 还真是，我知道是代理问题，但没想到更换ip就解决了，bing简直了。。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

误伤这又何妨 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。