[2017-JD] Deep Reinforcement Learning for List-wise Recommendations

该博客探讨了如何运用深度强化学习进行列表级推荐,指出推荐多个item时的状态和动作表示,以及网络结构调整的挑战。文章介绍了Actor-Critic框架,并详细阐述了在线用户代理交互环境模拟器的r计算方法,旨在模拟线上用户反馈。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文地址

https://arxiv.org/pdf/1801.00209.pdf

主要思想:

1、一次推荐多个item

2、状态s 为之前用户动作果的N个item的顺序集合。
状态定义
更新方法: 每次推荐之后, 将用户动作过的item放入其中。没有动作果的item相当于丢弃掉了。

3、动作a 为某次推荐的K个item。
Action Space
比如在 t t t 时刻的动作 a = { a t 1 , a t 2 , . . . a t K } a=\{a_t^1, a_t^2, ... a_t^K\} a={ at1,at2,...atK}

问题

1、k变化的时候,网络结构需要调成,整个网络需要重训。
2、直接输出 k ∗ d i m ( w ) k*dim_(w) kdim(w) 的向量,这些向量的表达能力可能需要打个问号。准确性的评估方法?
3、使用 w 1 , w 2 , w 3 , . . . w_1, w_2, w_3,... w1,w2,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值