强化学习:多臂老虎机与控制问题应用
1. 多臂老虎机(MAB)算法及应用
多臂老虎机(MAB)算法在涉及不确定决策和探索 - 利用权衡的现实场景中有着广泛应用,以下是一些常见的应用领域:
- 资源分配 :动态地将资源分配给不同选项,以最大化性能。
- 在线广告 :动态分配广告展示机会,学习哪些广告能产生最高点击率(用户点击广告的概率)。
- 实验设计和临床试验 :优化患者分配到不同治疗方案。
- 内容推荐 :为用户提供个性化的内容推荐。
- 网站优化 :优化不同的设计选项。
MAB可分为非上下文和上下文多臂老虎机(CMAB)。与非上下文MAB不同,CMAB利用环境中的上下文信息。在CMAB中,学习者反复观察上下文,选择一个动作,并以特定于所选动作的奖励或损失形式接收反馈。例如,在卡车选择问题中,共享上下文是配送路线的类型(城市或州际)。
CMAB在个性化推荐和在线广告等领域有应用,例如亚马逊展示了如何在SageMaker上使用内置的Vowpal Wabbit(VW)容器开发和部署CMAB工作流,以训练和部署上下文老虎机模型,用于为用户个性化内容,如内容布局、广告、搜索、产品推荐等。此外,基于CMAB使用VW开发了一个名为WayLift的可扩展算法决策平台,用于优化营销决策。
2. 强化学习优化
强化学习(RL)可用于组合优化问题,通过将问题构建为马尔可夫决策过程(MDP),并应用RL算法找到导致最佳解
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



