多臂赌博机问题的通用解决框架

多臂赌博机问题的通用解决方法

多臂赌博机问题是指智能体在与环境交互过程中,需要同时最大化奖励和学习如何最大化奖励的问题。其名称来源于赌徒试图找出赌场中哪台老虎机(单臂强盗)提供最佳赔付,同时最小化投入低胜率机器的资金量。

应用背景

多臂赌博机问题广泛存在于各种场景中,但设计和部署机器学习系统来解决这些问题通常过于复杂而难以实用。为此开发了一个简单灵活的框架,能够将强大的统计工具 benefits 带给那些影响力不如某中心主页内容排序、但仍对客户体验质量产生重要影响的应用。

在国际信息与知识管理会议(CIKM)上展示该框架的两个应用实例,初步证明其灵活性和易用性。当前工作还将该框架应用于其他问题。

两个关键应用

学习排序问题

第一项研究关注学习排序问题,即确定向客户展示物品列表的顺序。经典学习排序问题专注于排序搜索结果,但相同方法适用于任何信息呈现场景,如网页布局或音乐推荐排序。

自然语言理解

第二项研究涉及学习排序在自然语言理解(NLU)中的具体应用,类似于语音助手处理客户请求时的场景。当话语存在多种可能的NLU解释时,学习排序能够为特定客户选择最佳解释。例如,当客户说"播放Dark Side of the Moon"时,无法确定这是指平克·弗洛伊德的专辑还是李尔·韦恩的歌曲。NLU模型会输出按概率评分的可能解释列表,系统根据个别客户的收听历史重新排序这些列表。

实验效果

音乐推荐测试

使用学习排序方法确定音乐推荐顺序,与使用矩阵分解的学习排序算法相比,该方法使客户选择推荐歌曲播放的频率提高了7.6%,所选歌曲的收听时长增加了7.2%。

NLU重排序测试

在口语音乐请求上测试NLU重排序系统,使用接受的播放作为歌曲正确选择的隐式信号。重排序仅限于相对较小比例的流量,其中顶级NLU解释过去效果不佳。在这些请求上,观察到接受的播放量显著增加,幅度在50%到70%之间。

框架核心设计

动作建模

该框架将赌博机设置中的每次交互建模为给定有限动作列表的排序。动作可以是播放歌曲、显示搜索结果或在屏幕上特定位置显示布局元素。

每个动作被建模为固定长度的向量,这允许后期添加模型创建时尚未知的动作。向量还可以包含上下文信息,使模型在不同情况下做出不同选择。例如,当客户对语音助手说"播放exile"时,模型可能将泰勒·斯威夫特的歌曲"Exile"或乐队Exile的音乐排名更高,具体取决于上下文信息所指示的客户收听历史。

反馈机制

模型呈现动作列表后,会收到关于一个或多个动作的反馈。如果语音助手播放歌曲,而客户仅在几秒钟后切断,这表明对歌曲选择不满意。如果网站向客户展示歌曲选项列表,而客户点击其中三个,这表明这些歌曲应该排在列表顶部。

探索与利用平衡

在赌博机设置中,目标既要探索环境——了解哪些动作能获得最大奖励,又要利用获得的知识——最大化奖励。每次与环境交互后,智能体都有新信息作为下一次列表排序的基础。关键是选择最能管理探索/利用权衡的排序序列。

算法适配

在CIKM论文中,将两种著名学习算法适配到赌博机模型:置信区间上界(UCB)算法和汤普森采样。但该框架足够灵活,允许使用其他算法。

位置偏差处理

在学习排序论文中,扩展模型以考虑位置偏差,即物品在列表中的位置对客户选择决定的影响:列表顶部的物品往往被更频繁地选择,即使它们不是客户查询的最佳匹配。因此,将物品被选择的概率建模为其与查询的相关性和其在列表中位置的组合。

上下文信息选择

在NLU解释论文中,关键适配是确定在动作向量中包含哪些上下文信息。要播放的歌曲或专辑的流行度是其中一个因素,基于收听历史的客户对艺术家的"亲和力"指标也是因素之一。

该框架正在用于提高为客户提供的体验质量,这些只是两个说明性应用。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值