动态目标用户选择促进推广策略解析
1. 综合奖励函数与模型概述
综合奖励函数在优化过程中能够平衡商家、平台和用户的利益,提升推广商品的曝光度、长尾商品的覆盖率以及用户体验等指标,实现多方共赢。通过调整权重参数 α、β 和 γ,该函数还能适应不同的市场推广场景和利益分配,进一步提高推广效果。
为了实现动态目标用户选择,提出了 TriSUMS 模型,该模型考虑了多个利益相关者。以下是模型涉及的关键变量:
- 动作(Action) :在时刻 t,交互策略采取的动作 at 表示选择一个用户 u,动作 a 的表示向量 ea 与被选择用户的标准向量 eu 等价,即 ea = eu。
- 状态(Status) :st ∈ Rds 表示时刻 t 的交互状态,为智能体提供整体历史信息。st 包括商品交互信息的表示向量 ei 以及在整个交互轨迹过程中为该商品已选择的用户信息 {ea1, …, eat}。
- 奖励信号(Reward Signal) :rt 表示在时刻 t 策略选择动作 at 后,奖励提供者 ϕM 提供的反馈信号,通过奖励函数计算得出。
- 策略网络(Policy Network) :πθ = πθ(at|st) 根据当前状态 st 选择动作 at。它以状态 st 为输入,输出一个概率分布。动作 at 被选择的概率为:
[πθ(at|st) = ReLu(σ(W^T_s st + bt))]
其中,σ 表示非线性激活函数,$W^T_s$ ∈ Rds×da 和 bt ∈ Rda 分别表示权重矩阵和偏
超级会员免费看
订阅专栏 解锁全文
7558

被折叠的 条评论
为什么被折叠?



