61、多臂老虎机问题：理论、算法与应用

最新推荐文章于 2025-11-25 23:53:22 发布

rust6ferris

最新推荐文章于 2025-11-25 23:53:22 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能：现代方法精解文章标签：多臂老虎机吉廷斯指数 UCB启发式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/151887361

人工智能：现代方法精解专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多臂老虎机问题：理论、算法与应用

在决策科学和人工智能领域，多臂老虎机问题是一个经典且重要的研究课题。它不仅在理论上具有丰富的内涵，而且在实际应用中有着广泛的场景。本文将深入探讨多臂老虎机问题的相关概念、算法以及应用场景。

多臂老虎机问题概述

多臂老虎机问题最初源于拉斯维加斯的赌场。在那里，单臂老虎机就是常见的投币式老虎机，玩家投入硬币、拉动拉杆，就可能获得相应的奖金。而 n 臂老虎机则有 n 个拉杆，每个拉杆背后都有一个固定但未知的奖金概率分布，每次拉动拉杆都是从这个未知分布中抽样。

玩家面临的决策是，每次投币时应该选择拉哪个拉杆：是选择目前收益最好的那个，还是尝试尚未拉动过的拉杆？这体现了一个普遍存在的权衡问题，即利用当前已知的最佳行动来获取奖励，还是探索未知的状态和行动以获取更多信息，这些信息在某些情况下可以转化为更好的策略和更长期的奖励。

多臂老虎机问题是许多重要领域实际问题的形式化模型，例如：
- 医疗领域 ：决定尝试 n 种可能的新治疗方法中的哪一种来治愈疾病。
- 金融领域 ：决定将部分储蓄投入 n 种可能的投资项目中的哪一个。
- 科研领域 ：决定资助 n 种可能的研究项目中的哪一个。
- 互联网领域 ：决定在用户访问特定网页时展示 n 种可能的广告中的哪一个。

早期对该问题的研究始于二战期间的美国，但这个问题非常棘手，盟军科学家甚至开玩笑说要把这个问题“扔到德国去，作为智力破坏的终极工具”。后来人们发现，当时的科学家们试图证明一些关于

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。