2023年www预估方向梳理(一)

文章介绍了从传统的序列兴趣建模到决策建模的演进,包括路径匹配的深度行为路径匹配网络(DBPMaN)在点击率预测中的应用,强调了用户行为路径的决策依赖和上下文影响。另外,还提到了基于强化学习的多阶段计算分配方法(RL-MPCA)和决策上下文交互网络(DCIN)在优化推荐系统和点击率预估中的创新应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. WWW'23序列推荐前瞻(美团专场)

(划时代意义)序列兴趣建模到决策建模的突破:

①【传统】的序列建模方案(以阿里DIN/DIEN/DSIN/甚至SIM/ETA为代表),仅仅考虑了单点匹配(Point-to-Point),Item-Level层面(包含Item自身ID/属性ID等)的匹配,即用Target/候选Item(及其相关属性)与用户历史行为序列中的每一个Item进行点对点匹配。该方案受限于单商家候选视野,忽略了多Item的竞争和促进关系。同时,基于点击的单种行为队列忽略了不同类型行为之间依赖关系,使得用户行为被人为割裂,无法还原完整的决策过程,忽略了用户不同行为的重要程度及行为语义

②【路径】的序列建模方案,突破“单Item候选”视野限制,建模用户多种Path-Level(多个Items组成的时序行为序列)行为模式和多行为间信息转移,能够统筹利用多种行为(点击、加购、下单等):通过还原更真实、更详细、更形象的用户的决策现场、决策路径,模拟用户真实决策的心理路程!它打破了历史行为进行无序提取用户兴趣方式所带来的信息损失,比如传统兴趣提取方式无法刻画用户看到了什么(可能是曝光xx,也能是自身的UI等信息)、前面已发生的行为路径、上下文的路径依赖关系。具体情况下文(路径匹配:A Deep Behavior Path Matching Network for Click-Through Rate Prediction)

③ 决策建模 VS 兴趣建模:用户兴趣相对来说是相对是“静态”不变的,比如用是军事迷/财经爱好者;而用户决策模式往往是多变的,用户的决策会收到时空场景的影响:1)上下文看到了什么,UI突出(头图有吸引力);2) 前置路径行为,前面的行为路径,往往代表着用户的决策链路;3)上线文前后的路径依赖关系等等更加丰富多变的信息。

综上,简单来讲,孤零零的单点匹配,没有显式的充分考虑用户当下已经发生的行为依赖(即刚刚看到xx,点击xx)。从可观的真实世界来看,用户产生的行为,也不是孤立的,往往存在前后时间上的依赖,而路径依赖就是其中一种。

1】*路径匹配:A Deep Behavior Path Matching Network for Click-Through Rate Prediction

标题:基于深度行为路径匹配网络的点击率预测

链接:https://arxiv.org/pdf/2302.00302.pdf

应用:用户行为路径(用户序列建模) + CTR预估 (美团+中科院)

摘要:用户序列推荐在CTR领域往往是通过历史交互序列与候选匹配,为用户推荐相关物品。传统方法不足:通过Candidate-Wise单Item的匹配关系来刻画用户的复杂兴趣,该框架受限于单商家候选视野,忽略了多Item的竞争和促进关系。为了解决该问题,论文提出了一个用于行为路径匹配的深度神经网络模型(DBPMaN): 构建行为路径(Behavior Path)决策匹配,将用户当前路径与其历史路径进行匹配,以此刻画用户「浏览-点击-浏览-浏览-点击-......」路径决策前后依赖关系,并把路径匹配结果传导给下一次点击进行决策,以此为用户推荐相关物品,同时解决了行为路径建模中的三个难点:稀疏性、噪声干扰和行为路径的精确匹配。在公开数据集和美团外卖数据集上都优于现有方法。该算法在论文接收前已应用上线,目前已经在外卖的列表广告场景进行了落地。

dade74a11a499d37e9d7d77223cf3476.png

DDPM模型架构

本质探查:① 构建行为路径(如下图):用户时序行为序列-->通过点击行为切分多个路径Path,路径中每一个节点代表用户历史上的一个行为。② 路径匹配:当前路径和历史行为路径进行匹配,较传统的DIN/DIEN/DSIN的单Item匹配效果更优!

3d2d6612df461561b8795f468a5579ad.png

行为路径构造

2】重复交互:Communicative MARL-based Relevance Discerning Network for Repetition-Aware Recommendation

标题:基于MARL的重复交互感知推荐关联识别网络

链接:

应用:用户重复交互行为(用户序列建模) (美团+北邮)

摘要:用户和商品的重复交互现象正逐步成为电商场景中的普遍现象,在美团LBS场景特点下,用户的复购行为更为显著。本文中,我们介绍了一种新颖的基于Communicative-MARL 的相关性识别网络(简称 CARD)来自动识别商品相关性以获得更好的重复感知推荐。具体来说,CARD将商品相关性识别问题形式化为MARL中的通信选择过程,CARD将每个唯一的交互商品视为一个Agent,并定义了三种不同的Agent通信类型,分别是激励、抑制和噪声。在此之后,CARD利用Gumbel 增强分类器来区分代理之间的通信类型,并进一步设计基于注意力的点过程,以在所有代理之间分别传输明确的激励和抑制信号,以进行有效协作用于重复行为决策。

342c3bf33d7f09d369b1fec890774d93.png

模型结构图

本质探查:以往的重复行为的工作往往看作是一个自激励的点过程,简单来说,就是一个商品的重复发生只与自身有关,比如每隔一周会去买牛奶,这是商品自己的固有属性所决定的,因为其存在一定的消耗周期。但实际上这些工作忽略了两个因素:① 商品的重复行为是复杂的,不仅受到自身影响,其也受到其他商品影响,因此用自激励是不合适的,互激励能更好的建模这个问题。② 除了互激励外,还应该认识到这种激励信号并不总是正向的,图例中已经说明了,因此我们将这种互相激励的关系分为了三个类别,即正向,逆向,噪音信号。这也与场景也是相一致的。

进一步思考:

这是从item-specific的角度来探讨的重复行为的发生,将每个商品看作一个智能体,通过通信来更充分的理解环境,从而作出重复性行为的决策。其结合了一定程度的上下文信息,将这种相关性信号进行了分类,是更细粒度的探讨重复行为影响因素的一篇工作。其中一个有意思的点就是,注意到每次相关性判别并不是基于商品的原始表征,而是每个时间步GRU的编码表征,之所以这么做是因为商品的相关性是时间动态的,并且它与真实场景的用户行为一致。例如,对于电动牙刷的重新购买,购买电动牙刷头将在短期内抑制电动牙刷的再次购买。然而,我们发现,从长远来看,电动牙刷头的购买也会刺激电动牙刷的再次购买。

下图,举例说明其他物品对电动牙刷再消费的影响。x轴表示不同的物品,y轴上的正负值表示在消费相应物品时,电动牙刷重新消费的平均加速或延迟时间。

cafdfb5710eab3e911ccb58b7e5e45fa.png

再消费举例

3】强化学习:RL-MPCA: A Reinforcement Learning Based Multi-Phase Computation Allocation Approach for Recommender Systems

标题:一种基于强化学习的推荐系统多阶段计算分配方法

链接:

应用:强化学习  + 算力优化(美团团队)

摘要:推荐系统旨在从大量的候选项中向用户推荐最合适的内容,系统的算力成本随着用户请求的数量和模型复杂性的增加而增长。目前已有研究集中在队列动态分配上,并将算力资源分配问题表述为一个带约束的优化问题。此外,现有的关于多阶段算力资源分配的研究忽略了不同阶段之间请求的状态转移过程,限制了其方法的有效性。本文提出了一种基于强化学习的多阶段算力资源分配方法(RL-MPCA),其目的是在算力资源的限制下实现总业务收入的最大化。RL-MPCA将算力资源分配问题表述为一个Weakly Coupled MDP问题,并基于RL的方法来解决它。具体来说,RL-MPCA设计了一个新的深度Q网络以适应各种算力资源分配场景,并通过引入多个自适应拉格朗日乘数(adaptive-𝜆)来校准Q值,使得决策动作满足全局算力资源约束。

4】Decision-Making Context Interaction Network for Click-Through Rate Prediction

标题:决策上下文交互网络的点击率预测 (AAAI’2023)

链接:Decision-Making Context Interaction Network for Click-Through Rate Prediction

应用:Page-level上下文感知(用户序列建模) + CTR预估

摘要:点击率(CTR,Click-Through Rate)预估是信息流在线广告系统的核心问题之一。目前的模型通常单点建模用户的历史行为(例如点击)和当前目标item的关系,而忽略了用户在做点击决策时上下文的影响,如用户点击item时观察到的页面信息(显性决策上下文),又如级联广告系统(召回->粗排->精排)中,精排候选集隐含的用户个性化信息(隐性决策上下文)。论文指出显隐性决策上下文在CTR预估中的重要性,并首次提出决策上下文交互网络(DCIN,Decision-Making Context Interaction Network)进行建模。具体地,DCIN使用topK自注意力机制筛选最有价值的显/隐性决策上下文,并在上下文交互模块进一步融合决策信息,从而提取用户历史决策过程的准确表达。DCIN在公开数据集和美团广告数据集上都优于现有方法,并已在信息流广告场景全面落地。

c35b0236020db19c7eb75b3d9505ad8e.png

DCIN模型图

本质探查:①下图,显式和隐式决策环境的说明。(a)用户主动比较局部范围内高度相关项的属性在做出点击决定之前用红色表示,然后用蓝色表示。(b)我们可以推断出用户非常喜欢快餐,以至于预排名阶段为他产生了这些候选人。

0bc83fd9937fe7bb4a3450c015b409a3.png

上下文感知举例

离线实验:(DFN/DSIN/CIM/RACP)

1f8ef566932a8bfe7ee443071e92d07a.png

AB实验
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值