深度学习核心技术精讲100篇(三)-层次自适应的多臂老虎机决策算法 ( HATCH )在滴滴中的应用

前言

需要源码的小伙伴参见:

Contextual Bandits 算法在推荐场景中的应用源码

https://download.youkuaiyun.com/download/wenyusuran/15578470

滴滴 AI Labs 提出了一种基于强化学习的层次自适应的多臂老虎机的资源限制下的个性化推荐方法 ( HATCH ),该方法将资源限制下的用户推荐问题建模成一个资源限制下的上下文老虎机问题,并使用层次结构同时达到资源分配策略和个性化推荐策略同时优化的目的。

01 研究背景

多臂老虎机是一个非常典型的决策方法,被广泛的应用于推荐系统中。一般情况下,当多臂老虎机算法观察到系统当中的状态 ( state ) 时,会从候选的多个动作 ( action ) 当中选择一个在环境当中执行,之后得到环境的反馈回报 ( reward )。算法的目标是最大化累计回报,在推荐系统当中,state 一般对应用户上下文,比如用户特征等,action 对应于可供推荐的项目,比如广告,商品等等。reward 一般为用户在得到推荐结果之后的反馈,通常情况下会使用点击率等。多臂老虎机作为一种决策方法,其最重要的就是提供探索 ( exploration ) - 开发 ( exploitation ) 功能。开发是指策略 ( policy ) 采用当前预估出的最佳推荐,探索则是选择更多非最佳策略从而为深入挖掘用户喜好提供了可能性。

本文所考虑的问题是,有些时候推荐

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值