多臂老虎机问题:探索与利用的权衡
1. 强化学习基础回顾
强化学习(RL)是当下人工智能领域的热门话题和前沿方向。它让智能体在无监督的情况下从经验中学习,通过观察自身行动的后果,找出在各种情况下能带来最高奖励的行动。在许多实际场景中,如社交媒体应用测试、网站广告展示、在线购物平台的价格动态调整等,都可以建模为多臂老虎机(MAB)问题,以做出最优决策。
2. 多臂老虎机问题概述
2.1 探索 - 利用权衡
在强化学习中,探索新行动可能带来更高奖励,但也可能浪费资源;而利用已知表现不错的行动则能保证一定的收益,但可能错过更好的机会。这种探索与利用的权衡是强化学习的核心问题,在多臂老虎机问题中尤为关键。原因主要有两点:
- 多臂老虎机问题是单步强化学习,能让我们独立研究各种探索策略,且有可能从理论上证明其优劣。
- 多臂老虎机问题通常是在线训练和使用的,低效的探索不仅会浪费计算机时间,还会因错误行动造成实际的经济损失。
2.2 什么是多臂老虎机问题
多臂老虎机问题的经典例子是一个赌徒从一排老虎机中选择一台进行游戏。每台老虎机的拉杆被拉动时,会根据其特定的概率分布给出随机奖励。虽然这些老虎机外观相同,但它们的奖励概率分布不同。赌徒的目标是最大化总奖励,因此每次都要决定是继续玩目前平均奖励最高的机器,还是尝试其他机器。
总结来说,多臂老虎机问题具有以下特点:
- 智能体依次采取行动,每次行动后会获得一个奖励。
- 一个行动只影响即时奖励,不影响后续奖励。
- 系统中没有因智能体行动而改变的“状态”。
- 智能体在做决策时没有输入信息,这一点
超级会员免费看
订阅专栏 解锁全文
815

被折叠的 条评论
为什么被折叠?



