前言
需要源码的小伙伴参见:
Contextual Bandits 算法在推荐场景中的应用源码
https://download.youkuaiyun.com/download/wenyusuran/15578470
滴滴 AI Labs 提出了一种基于强化学习的层次自适应的多臂老虎机的资源限制下的个性化推荐方法 ( HATCH ),该方法将资源限制下的用户推荐问题建模成一个资源限制下的上下文老虎机问题,并使用层次结构同时达到资源分配策略和个性化推荐策略同时优化的目的。
01 研究背景
多臂老虎机是一个非常典型的决策方法,被广泛的应用于推荐系统中。一般情况下,当多臂老虎机算法观察到系统当中的状态 ( state ) 时,会从候选的多个动作 ( action ) 当中选择一个在环境当中执行,之后得到环境的反馈回报 ( reward )。算法的目标是最大化累计回报,在推荐系统当中,state 一般对应用户上下文,比如用户特征等,action 对应于可供推荐的项目,比如广告,商品等等。reward 一般为用户在得到推荐结果之后的反馈,通常情况下会使用点击率等。多臂老虎机作为一种决策方法,其最重要的就是提供探索 ( exploration ) - 开发 ( exploitation ) 功能。开发是指策略 ( policy ) 采用当前预估出的最佳推荐,探索则是选择更多非最佳策略从而为深入挖掘用户喜好提供了可能性。
本文所考虑的问题是,有些时候推荐