深度学习核心技术精讲100篇（三）-层次自适应的多臂老虎机决策算法 ( HATCH )在滴滴中的应用

文宇肃然

于 2020-09-08 08:08:38 发布

阅读量1.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习100例全系列详细教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/108452245

前言

需要源码的小伙伴参见：

Contextual Bandits 算法在推荐场景中的应用源码

https://download.youkuaiyun.com/download/wenyusuran/15578470

滴滴 AI Labs 提出了一种基于强化学习的层次自适应的多臂老虎机的资源限制下的个性化推荐方法 ( HATCH )，该方法将资源限制下的用户推荐问题建模成一个资源限制下的上下文老虎机问题，并使用层次结构同时达到资源分配策略和个性化推荐策略同时优化的目的。

01 研究背景

多臂老虎机是一个非常典型的决策方法，被广泛的应用于推荐系统中。一般情况下，当多臂老虎机算法观察到系统当中的状态 ( state ) 时，会从候选的多个动作 ( action ) 当中选择一个在环境当中执行，之后得到环境的反馈回报 ( reward )。算法的目标是最大化累计回报，在推荐系统当中，state 一般对应用户上下文，比如用户特征等，action 对应于可供推荐的项目，比如广告，商品等等。reward 一般为用户在得到推荐结果之后的反馈，通常情况下会使用点击率等。多臂老虎机作为一种决策方法，其最重要的就是提供探索 ( exploration ) - 开发 ( exploitation ) 功能。开发是指策略 ( policy ) 采用当前预估出的最佳推荐，探索则是选择更多非最佳策略从而为深入挖掘用户喜好提供了可能性。

本文所考虑的问题是，有些时候推荐

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文宇肃然 精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。