导读
文章总结了用户行为建模(UBM)的四个方向,包括传统 UBM、长序列 UBM、多类型 UBM 以及带有辅助信息的 UBM,并比较不同方向的特点和指标,最后得到结论,长序列 UBM遥遥领先。
摘要
用户行为建模(UBM)在用户兴趣学习中扮演着关键角色,已被广泛应用于推荐系统中。利用用户与物品之间的关键互动模式,为许多推荐任务带来了引人注目的改进。在本文中,我们尝试对这一研究主题进行全面的综述。我们首先回顾了 UBM 的研究背景。然后,我们提供了现有 UBM 研究工作的系统分类,这些可以归类为四个不同的方向,包括传统 UBM、长序列 UBM、多类型 UBM 以及带有辅助信息的 UBM。在每个方向中,代表性模型及其优缺点都进行了全面讨论。此外,我们详细阐述了 UBM 方法的工业实践,希望能够为现有 UBM 解决方案的应用价值提供洞见。最后,我们总结了这项调查,并讨论了这个领域的未来前景。
1 背景
随着各种互联网应用的快速发展,推荐系统(RS)对于提供个性化服务和缓解信息过载问题变得越来越不可或缺[Zhang 等人,2021]。RS 研究的一个主要瓶颈是关于用户偏好的显式反馈的稀缺性[Hu 等人,2008]。相反,用户的偏好隐含地记录在粗糙且嘈杂的行为日志中。为了改善这一瓶颈,许多研究人员一直致力于用户行为建模(UBM)的研究,目的是从行为历史中探索和利用用户兴趣的表示[Zhang 等人,2021]。
尽管应用任务的形式不同(例如,排名或下一个项目的预测),推荐模型的共同学习目标是预测给定用户对特定项目的兴趣。具体来说,对于基于 UBM 的推荐模型 F Θ U B M ( ⋅ ) F_{\Theta}^{UBM}(\cdot) FΘUBM(⋅),由 Θ \Theta Θ 参数化,预测给定用户 u u u 对目标项目 i i i 的兴趣 P ( u , i ) P(u, i) P(u,i) 为:
P ( u , i ) = F Θ U B M ( u , i , H u , f u , f i , f c ) , ∀ u ∈ U , i ∈ I P(u, i) = F_{\Theta}^{UBM}(u, i, H_u, f_u, f_i, f_c), \forall u \in U, i \in I P(u,i)=FΘUBM(u,i,Hu,fu,fi,fc),∀u∈U,i∈I
其中 U U U 和 I I I 分别是用户和项目的通用集合, H u H_u Hu 是用户行为历史。 f u f_u fu、 f i f_i fi 和 f c f_c fc 分别是非行为用户特征(例如年龄)、项目特征(例如价格)和上下文特征(例如,星期几)。
我们不讨论 f u f_u fu、 f i f_i fi 和 f c f_c fc,因为它们不是 UBM 的关键问题,感兴趣的读者可以参考[Zhang 等人,2021]。UBM 的核心研究问题是如何从行为历史 H u H_u Hu 中提取和建模用户兴趣。在 H u H_u Hu 中,每个行为记录 h u , k = { v k , t k , f k } h_{u,k} = \{v_k, t_k, f_k\} hu,k={vk,tk,fk} 由交互的项目 v k ∈ I v_k \in I vk∈I、时间戳 t k t_k tk 和一些相关特征 f k f_k fk 组成(例如,行为类型和项目描述)。如图 1 所示,已经提出了各种 UBM 方法,以从 H u H_u Hu 中学习有效的用户兴趣表示。尽管已经有关于传统 UBM 的一些综述论文[Wang 等人,2019;Fang 等人,2020],然而,它们未能涵盖用户行为建模的最新发展。在这项综述中,我们将全面分析最新的 UBM 研究进展,并从学术和工业的角度讨论它们的优势和劣势。此外,我们提出了三个新的研究趋势,即用户行为序列的长度更长、多样性增加和异质性增长,如图 1 所示。
本文的其余部分组织如下。在第 2 节中,我们挑选了一些代表性的 UBM 工作,对提出的想法进行分类,并分析它们的差异和相似性。在此基础上,我们提出了一个新的 UBM 分类,包括四个研究方向,如图 1 所示。第 3、4、5 和 6 节分别详细讨论了这四个方向的成就、优势和劣势。在第 7 节中,我们进一步讨论了 UBM 在大规模工业推荐系统中的应用价值。最后,第 8 节总结了这项调查,并为 UBM 的未来研究方向提供了一些启示。
2 分类
为了推进隐式用户兴趣建模的探索,提出了各种 UBM 方法。为了更好地理解 UBM 的发展脉络,我们识别了一些代表性和有影响力的研究工作,分析了它们的研究动机,并总结了它们的关键技术贡献。
如表 1 所示,这项调查建立了一个新颖的 UBM 分类,将现有的研究工作分为四大类别。起源于对简单用户行为的传统 UBM 研究,研究人员已经扩展到进一步考虑用户行为历史的更长长度、增加的多样性和不断增长的异质性,如图 1 所示。我们简要解释以下三个最新研究趋势的核心思想。
-
传统 UBM侧重于从简单的历史行为序列中学习用户兴趣表示。用户行为历史 Hu 首先被处理成按时间顺序排列的项目序列,长度受限。随后,研究人员尝试从不同角度探索复杂的行为模式,如会话结构[Hidasi 等人,2016a]、行为粒度和影响范围[Tang 和 Wang,2018]以及成对依赖性[Kang 和 McAuley,2018]。
-
长序列 UBM通过学习更长的用户行为记录序列(至少是千级别的规模)来扩展传统 UBM。在 Hu 中保留更多的行为记录,模型将有潜力提取更丰富和长期的用户兴趣。然而,使用深层模型学习非常长的序列具有挑战性,并且可能存在计算瓶颈。因此,研究人员要么采用记忆增强方法来存储长期行为依赖性[Pi 等人,2019],要么采用基于检索的方法来挑选与目标相关的行为历史[Qin 等人,2020]。
-
多类型 UBM进一步扩展到研究用户行为的多样性。在一个统一的推荐模型中,不同行为类型(例如点击和购买)的显式建模为理解行为模式和行为相关性提供了一个新的视角,以细粒度的方式。研究人员致力于行为多样性带来的一系列新挑战,如多行为定义[Guo 等人,2019]、多行为融合[Jin 等人,2020]和多行为预测[Gao 等人,2019]。
-
带有辅助信息的 UBM进一步考虑了与行为记录相关的异质特征。辅助信息有助于恢复行为记录发生时的上下文交互逻辑,这对于理解复杂的用户兴趣提供了重要的补充。已经采用了先进的 NLP 和 CV 模型将丰富的多模态信息转换到用户兴趣表示空间[Liu 等人,2021;Singer 等人,2022]。
这四个研究方向密切相关而非相互排斥,它们共同推动了 UBM 研究领域的快速发展。在接下来的章节中,我们将进一步详细阐述四个 UBM 研究方向的关键研究挑战、代表性解决方案和发展趋势。
3 传统 UBM
传统用户行为建模侧重于从相同类型的相对短期行为序列中提取项目依赖性[Kang 和 McAuley, 2018; Zhou 等人,2018a]。典型模型可以形式化为:
P ( u , i ) = F Θ U B M ( u , i , H u S ) , ∀ u ∈ U , i ∈ I P(u, i) = F_{\Theta}^{UBM}(u, i, H_u^S), \forall u \in U, i \in I P(u,i)=FΘUBM(u,i,HuS),∀u∈U,i∈I
其中 H u S H_u^S HuS 是从 H u H_u Hu 中提取的行为序列。为了既确保提取的行为记录的相关性,又降低模型复杂性,使用上限值来限制用户行为序列 H u S H_u^S HuS 的长度。已经采用了各种深度网络结构来学习 H u S H_u^S HuS,包括递归神经网络(RNNs)、卷积神经网络(CNNs)和注意力机制。
3.1 基于 RNN 的方法
递归神经网络(RNNs)自然地捕捉序列的长期和短期依赖性。作为用户行为建模最早的尝试之一,GRU4Rec [Hidasi 等人,2016a] 使用门控循环单元(GRUs)学习会话中用户行为的演变模式。后续研究通过数据增强技术 [Tan 等人,2016] 或改进的排名损失函数 [Hidasi 和 Karatzoglou,2018] 扩展了 GRU4Rec。NARM [Li 等人,2017] 应用基于 RNN 的编码器-解码器模型,结合会话中的全局和局部兴趣。Quadrana 等人[2017] 进一步提出两个层次的 GRU 模型,分别模拟会话内外用户行为的演变。
3.2 基于 CNN 的方法
Tang 和 Wang [2018] 指出,基于 RNN 的方法可能无法很好地捕捉跳过行为,即下一步受到之前几步行为的影响,而不是相邻行为。因此,他们提出了一个案例模型,将最近的行为视为时间和潜在维度中的“图像”,并通过水平和垂直卷积滤波器学习序列模式和跳过行为。NextItNet [Yuan 等人,2019] 引入了一个具有残差块结构的生成 CNN 模型,以捕捉短期和长期项目依赖性。
3.3 基于注意力机制的方法
最近,由于注意力机制在建模任意一对行为之间的交互方面的优势,它们在 UBM 中得到了广泛采用,不会随着编码距离的增加而降低 [Vaswani 等人,2017]。为了利用更多的监督信息,SASRec [Kang 和 McAuley,2018] 采用自注意力来识别自回归预测框架中过去行为的重要性。DIN [Zhou 等人,2018a] 应用注意力机制自适应地从历史行为中学习用户兴趣的表示,针对某个项目。然而,DIN 忽略了用户兴趣的演变特性,这在 DIEN [Zhou 等人,2019] 中通过注意力和 GRU 的结合得到了解决。为了进一步考虑用户行为的内在会话结构,DSIN [Feng 等人,2019] 使用自注意力和双向 LSTM 分别提取会话内兴趣表示和会话间演变模式。尽管取得了上述成就,研究人员也注意到传统注意力机制在探索复杂行为模式方面的缺陷,因此转向更复杂的注意力架构,如 BST [Chen 等人,2019] 中的 Transformer 编码器和 BERT4Rec [Sun 等人,2019] 中的堆叠双向 Transformer 编码器。
3.4 讨论
传统 UBM 的研究探索了不同的网络结构,用于从简单行为序列中提取依赖模式。尽管提到了上述网络结构,其他深度网络结构(例如,MLP [Wang 等人,2014] 和 GNN [Chang 等人,2021])或多种网络结构的组合 [Zhou 等人,2019; Feng 等人,2019] 也在传统 UBM 中进行了研究。例如,SURGE [Chang 等人,2021] 使用度量学习从行为序列中构建项目-项目兴趣图。不同的深度技术擅长捕捉不同的行为依赖性。我们观察到 UBM 中捕获的依赖性正变得越来越复杂和实用。依赖性建模从简单的单向依赖性(通过 RNNs)发展到跳过行为依赖性(通过 CNNs),最终发展到任意成对依赖性建模(注意力)或多种关系建模(GNNs)。
4 长序列 UBM
随着用户与平台互动数据量的不断增长,用户积累了大量的行为数据[Ren 等人,2019]。从传统 UBM 扩展而来,长序列 UBM 进一步尝试保留更长时间范围内的用户行为历史,可以定义为:
P ( u , i ) = F Θ U B M ( u , i , H u L ) , ∀ u ∈ U , i ∈ I P(u, i) = F_{\Theta}^{UBM}(u, i, H_u^L), \forall u \in U, i \in I P(u,i)=FΘUBM(u,i,HuL),∀u∈U,i∈I
其中 H u L H_u^L HuL 尽可能多地保留了 H u H_u Hu 中的行为记录。长序列 UBM 使推荐系统能够进一步利用长期行为依赖性和用户行为的周期性。然而,用户行为序列可能变得非常长(至少数千条),这可能使得对所有历史用户行为进行建模的成本过高。较长的序列通常包含更多的噪声[Pi 等人,2020; Qin 等人,2020],严格的在线延迟要求进一步阻碍了在大规模工业生产中纳入长行为序列。为了改善上述问题,许多研究工作从学术界和工业界提出,可以分为两个主要方向:记忆增强方法和基于用户行为检索的方法。
4.1 记忆增强方法
记忆增强网络最初在自然语言处理(NLP)任务中提出,它明确地将提取的知识存储到外部记忆[Graves 等人,2014; Kumar 等人,2016]。在推荐场景中,外部记忆存储用户兴趣表示,由定制的神经网络根据用户行为记录进行读取和更新。
NMR [Wang 等人,2018] 为每个用户维护一个外部记忆库,包含几个兴趣表示,根据新生成的用户行为进行更新。兴趣表示与个性化权重相关联,以反映用户的不同口味。RUM [Chen 等人,2018] 明确存储用户的历史行为。它使用先进先出机制来维护用户记忆中最新交互的项目。KSR [Huang 等人,2018] 将项目属性作为键来索引从外部记忆中提取的知识,这增强了顺序推荐的项目表示。
为了更有效、高效地处理长序列用户行为,特别设计的记忆增强网络被提出,将长行为序列总结为密集向量。Ren 等人[2019]提出了具有分层周期记忆网络(HPMN)的终身序列建模框架。为了捕获多尺度序列模式,设计了一个多层 GRU 架构,以不同的更新频率在每层递增地更新外部用户兴趣表示。出于类似动机,Pi 等人[2019]设计了一个用户兴趣中心(UIC)模块,通过多通道用户兴趣记忆网络(MIMN)捕获多方面的用户兴趣。在推理时,用户行为表示直接从 UIC 获得,无需在线计算,这将耗时的建模过程与实时预测过程解耦。UIC 为长序列 UBM 提供了一个系统的工业解决方案,并已成功部署在现实世界的推荐系统中。
4.2 用户行为检索方法
除了在外部记忆存储用户兴趣外,从非常长的序列中检索最相关和最重要的行为是另一种解决方案。检索过程可以高效地进行,检索步骤可以减少序列内潜在的噪声。UBR [Qin 等人,2020] 使用搜索引擎技术检索与目标项目最相关的行为。与使用一长串连续的行为序列不同,只有一小部分检索集将用于后续计算。Qin 等人[2023]进一步研究如何优化检索功能,并提出了基于学习排序的优化方法。
SIM [Pi 等人,2020] 提出了硬搜索和软搜索方法。对于硬搜索,它使用用户 ID 和项目类别构建两层索引。对于软搜索,SIM 利用局部敏感哈希(LSH)根据它们的嵌入快速获取相关行为。上述两种方法都是两阶段模型,即检索功能与预测模块分开训练。ETA [Chen 等人,2021b] 则提出以端到端的方式训练检索功能。它使用 SimHash 算法将行为嵌入和目标项目映射到二进制签名。基于二进制签名,检索与目标项目具有最小汉明距离的行为。项目嵌入是检索过程中使用的唯一参数,因此整个过程可以实现端到端。SDIM [Cao 等人,2022] 通过提出一种简单的基于哈希采样的方法进一步改进了 ETA,直接收集与目标项目共享相同哈希签名的行为项目。ADFM [Li 等人,2022] 提出了一种对抗性过滤机制,压缩检索到的行为序列并移除潜在的噪声行为。
4.3 讨论
记忆增强方法的设计哲学是通过引入更多的用户/项目特定参数(即外部记忆)来记忆更多信息。尽管在建模更长序列方面有效,但模型通常复杂且难以在现实世界系统中部署[Pi 等人,2020]。相比之下,基于检索的框架对于大型系统更有效且易于扩展。这些优势使它们更适合于处理工业应用中的长行为序列。然而,检索行为不可避免地会导致信息丢失,因为在检索过程中许多行为被丢弃。因此,如何在两种研究方向之间进行权衡并利用双方的优势仍然是一个开放问题。
5 多类型 UBM
在传统 UBM 的基础上,多类型 UBM 旨在明确考虑不同类型的行为,因为它们在用户兴趣建模中传达了微妙的差异[Zhou 等人,2018b; Jin 等人,2020]。例如,在电子商务场景中,购买行为通常代表比点击行为更强的兴趣。而在产品评论场景中,正面和负面的评分则是相反的。
具体来说,多类型 UBM 框架估计用户 u u u 对项目 i i i 的特定类型 b b b 的兴趣 P ( u , i , b ) P(u, i, b) P(u,i,b) 为:
P ( u , i , b ) = F Θ U B M ( u , i , H u M B ) , ∀ u ∈ U , i ∈ I P(u, i, b) = F_{\Theta}^{UBM}(u, i, H_u^{MB}), \forall u \in U, i \in I P(u,i,b)=FΘUBM(u,i,HuMB),∀u∈U,i∈I
其中 b b b 是全部类型集合 B B B 中的特定行为类型。多类型行为历史 H u M B H_u^{MB} HuMB 通过在每个行为记录中明确考虑行为类型来扩展 H u H_u Hu:
h u , k M B = { v k , t k , b k , f k } , b k ∈ B h_{u, k}^{MB} = \{v_k, t_k, b_k, f_k\}, b_k \in B hu,kMB={vk,tk,bk,fk},bk∈B
其中 b k b_k bk 特别从行为特征 f k f_k fk 中挑选出来,以处理行为多样性。明确考虑行为类型不仅可以从新的角度解释用户兴趣,也带来了新的挑战。
5.1 行为类型定义
多类型 UBM 的首要问题是行为类型的定义,这是一个尚未解决的问题,因为推荐场景可能会有很大的差异。研究人员通常通过专家分析来定义不同的行为类型,这些类型大致可以分为三类。
-
宏观行为指的是具有明确动机的交互行为,这些行为由推荐场景的逻辑设计来定义。例如,点击、加入购物车、加入收藏夹和购买行为共同实现了电子商务服务的基本功能[Xia 等人,2021a; Xia 等人,2020]。用户执行宏观行为以实现特定目的,这些行为记录得很好(包括行为类型),可以直接用于后续的多类型 UBM 方法。
-
微观行为是由专家从宏观行为中提取的[Zhou 等人,2018b; Meng 等人,2020],这提供了对用户行为的细粒度理解。例如,点击行为可以根据点击来源分为不同的微观行为,这有助于解释用户对特定项目的兴趣[Zhou 等人,2018b]。然而,微观行为的定义并不简单,需要对特定场景和目标应用有深入的了解。
-
来自不同领域或场景的行为也可以被纳入,以提供用户兴趣挖掘的补充信息[Gu 等人,2021; Ma 等人,2019]。例如,ZEUS 模型结合搜索场景中的查询行为和推荐场景中的点击行为来挖掘用户的隐性反馈[Gu 等人,2021]。此外,在两个领域中相同的观看行为被视为不同的行为,以突出领域差异[Ma 等人,2019]。根据应用的不同,需要专家指导从相关领域或场景中选择补充行为。
5.2 多行为融合
在确定行为类型之后,多类型 UBM 的下一个挑战是如何在传统 UBM 模型的基础上进一步建模复杂的跨类型行为依赖关系。现有的研究根据跨类型行为关系与类型内行为关系融合的方式和时间分为两类,即早期融合模型和晚期融合模型。
-
晚期融合多类型 UBM在两步模型架构下探索类型内和跨类型行为关系[Gao 等人,2019; Gu 等人,2020; Gu 等人,2021; Chen 等人,2021a]。例如,NMTR 模型首先分别预测不同行为类型的用户-项目交互,然后以级联方式组合这些交互,以考虑跨类型行为关系[Gao 等人,2019]。DMT 和 ZEUS 提出基于类型内序列表示的连接来学习跨类型用户表示[Gu 等人,2020; Gu 等人,2021]。GHCF 基于类型内协作表示的行为融合进行多行为预测[Chen 等人,2021a]。由于行为记录的同质性,传统的 UBM 技术(如 RNN、Transformer 和 GCN)可直接用于类型内学习过程。此外,独立的类型内学习过程是可并行化的,这带来了快速的计算效率。然而,晚期融合模型的共同限制是它们忽略了项目级别的跨类型行为建模,这可能会对性能产生负面影响。
-
早期融合多类型 UBM以混合方式联合学习类型内和跨类型行为关系[Zhou 等人,2018b; Yuan 等人,2022; Guo 等人,2021; Wei 等人,2022]。例如,在 RIB[Zhou 等人,2018b]、MB-STR[Yuan 等人,2022]和 π-Net[Ma 等人,2019]模型中,多行为序列模式从多类型混合行为序列中学习。而在 MBGCN[Jin 等人,2020]、MB-GMN[Xia 等人,2021b]和 MATN[Xia 等人,2020]模型中,研究人员尝试使用(异构)图学习技术探索多重用户-项目交互语义。在传统 UBM 的基础上,提出了各种修改以纳入行为感知信息来处理项目级别的行为差异。一方面,通过枚举探索类型内和跨类型行为依赖关系来提高性能。另一方面,复杂的模型架构也增加了计算复杂性。
5.3 多行为预测
多类型 UBM 的另一个独特问题是,有时需要在同一个模型中预测多种类型的行为[Gao 等人,2019; Gu 等人,2020; Gu 等人,2021; Guo 等人,2021]。不同类型行为的联合预测具有挑战性,因为不同行为的标签分布在同一空间中不对齐,甚至是互斥的。一种常见的做法是为不同的行为类型构建独立的预测模块,这种做法广泛适用于各种模型范式[Guo 等人,2019; Guo 等人,2021; Chen 等人,2021a]。然而,独立的预测头忽略了潜在的任务关系,导致次优性能。为了避免不同行为预测任务之间的负迁移,采用了 MMoE[Ma 等人,2018]和 PLE[Tang 等人,2020]方法来促进任务相关性并抑制任务冲突[Gu 等人,2020; Gu 等人,2021; Yuan 等人,2022]。当领域专家给出严格的行为依赖关系时,可以应用级联预测结构[Gao 等人,2019]。
5.4 讨论
上述三个问题在多类型 UBM 中是紧密相关的。例如,ZEUS 模型利用来自不同场景的行为类型,这导致不同的标签分布,并需要复杂的多行为预测模块[Gu 等人,2021]。DIPN 同时建模表达用户兴趣的宏观和微观行为,这使得早期融合设计难以很好地融合它们[Guo 等人,2019]。因此,多类型 UBM 解决方案应在上述三个关键设计之间进行权衡,以适应特定应用。
6 带有辅助信息的 UBM
尽管取得了巨大成功,但上述大多数 UBM 方法忽略或未充分利用与每个行为记录相关的丰富辅助信息。为了填补这一空白,带有辅助信息的 UBM 旨在设计专门的组件来利用包含在行为记录中的丰富知识:
P ( u , i ) = F Θ U B M ( u , i , M ( H u ) ) , ∀ u ∈ U , i ∈ I , P(u, i) = F_{\Theta}^{UBM}(u, i, M(H_u)), \forall u \in U, i \in I, P(u,i)=FΘUBM(u,i,M(Hu)),∀u∈U,i∈I,
其中 $ M(\cdot) $ 代表新的辅助信息融合组件。在处理行为记录 $ h_{u,k} = {v_k, t_k, f_k} $ 时,$ M(\cdot) $ 将辅助信息 $ t_k $ 和 $ f_k $ 与项目 ID $ v_k $ 融合以获得细粒度的表示。显然,( M(\cdot) ) 的设计依赖于辅助信息。
6.1 辅助信息来源
在 UBM 中可以利用各种来源的辅助信息,这些信息主要分为三类:时间信息、项目属性和多模态信息。在传统的 UBM 方法中,如 SASRec [Kang 和 McAuley, 2018] 和 BERT4REC [Sun 等人, 2019],时间信息用于对行为记录进行排序,这仅在序列建模之前影响位置编码。然而,TiSASRec [Li 等人, 2020] 发现不同项目对之间的时间间隔传达了关键知识,因此提出了一种新的时间间隔感知机制用于注意力权重计算。出于类似动机,TISSA [Lei 等人, 2019] 首先提出了一种基于时间间隔的 GRU 来获取会话级别的行为表示,然后使用多尺度时间窗口将其分割成片段,以更好地捕捉时间依赖性。项目属性也显著影响用户行为,提供必要的上下文信息。FDSA [Zhang 等人, 2019] 提出将项目 ID 与类别、品牌和描述文本等属性结合起来进行序列推荐。为了跟踪属性随时间的变化,Trans2D [Singer 等人, 2022] 对项目 ID 和属性进行特征转换,以学习复杂的项目-属性模式。与上述方法不同,多模态辅助信息的使用更加复杂。p-RNN [Hidasi 等人, 2016b] 首先从视频缩略图中提取图像特征,从产品描述中提取文本特征。然后采用现有的计算机视觉(CV)和自然语言处理(NLP)方法(GoogLeNet 和词袋模型)分别学习多模态特征表示。受多模态预训练成果的启发,SEMI [Lei 等人, 2021] 通过直接使用预训练的 CV 和 NLP SOTA 来获取视频和文本表示。
6.2 辅助信息利用
一旦获得辅助信息表示,有效利用它们是另一个关键问题。早期工作通常通过简单的加法或串联操作合并不同的表示向量,然后将混合后的项目向量输入到后续学习模块中。例如,p-RNN [Hidasi 等人, 2016b] 提出在输入层用串联特征或在输出层用加权求和输出来融合项目 ID 信息和辅助信息。RNN 单元用于序列处理。SC-CNN [Zhang 等人, 2022] 将辅助信息视为不同的视图,将它们串联成一个 3D 立方体,然后使用半因果卷积神经网络(CNN)同时捕捉不同视图之间的关系。Trans2D [Singer 等人, 2022] 也将项目与属性转换为 3D 立方体,但应用了一个修改后的 Transformer,使用 2D 自注意力处理 3D 数据。CARCA [Rashed 等人, 2022] 进一步扩展了自注意力网络,使用一个双分支多头自注意力框架来捕捉隐藏在用户上下文和属性感知档案中的动态用户偏好。左分支用于提取丰富历史行为和档案之间的依赖关系,右分支用于捕捉行为序列对目标项目的影响。然而,用简单的融合操作融合辅助信息可能会影响原始项目 ID 表示。因此,NOVA-BERT [Liu 等人, 2021] 利用辅助信息作为自注意力模块的辅助,以学习更好的注意力分布,而不是融合到项目表示中。DIF-SR [Xie 等人, 2022] 认为在注意力计算之前整合辅助信息会限制注意力矩阵的学习,因此通过独立的注意力计算分离各种辅助信息,以进一步改进 NOVA-BERT。受计算机视觉(CV)和自然语言处理(NLP)领域自监督学习(SSL)成功的启发,研究人员也采用 SSL 进行辅助信息建模。为了挖掘项目-属性关系,S3Rec [Zhou 等人, 2020] 在预训练中提出了两个 SSL 目标,即关联属性预测和掩码属性预测。为了在兴趣层面进一步考虑项目属性,MISS [Guo 等人, 2022] 提出了一种基于 CNN 的提取器,以捕捉兴趣表示、依赖关系和相关性。
6.3 讨论
可以观察到,异构的辅助信息在后续提取和融合过程中起着决定性的作用。简单的时间和属性信息可以无缝地集成到行为建模中,而复杂的图像和文本信息需要用现有技术以特定方式处理。因此,仍有很大的探索空间,如何高效和有效地将辅助信息集成到兴趣表示空间中。
7 工业实践
推荐系统的研究高度面向应用,面临各种实际问题。因此,单纯面向研究的设计不足以反映 UBM 研究的潜在价值。在本节中,我们讨论了代表性 UBM 方法的工业实践。为了确保数据的权威性和准确性,在线性能统计数据仅从已发表的论文中收集。
结果展示在表 2 中,从中我们可以得到以下观察结果:
- 除了经常提到的在线广告和电子商务,UBM 方法还适用于其他场景,如应用商店和优惠券分配,这反映了 UBM 的潜在研究和应用价值。
- 考虑长序列行为、多类型行为和辅助信息都比传统 UBM 基线(如 UIC 对比 DIEN,DMT 对比 DIEN,SEMI 对比 BST)取得了改进,这证明了它们的价值。然而,如果我们考虑成功部署的模型,长序列 UBM 领先。
- 计算效率是 UBM 工业实践中的另一个关键问题。尽管 BST 在 CTR 方面优于 WDL 和 DIN,但 Transformer 单元也导致了更高的响应时间(RT),这限制了其在高吞吐量场景中的应用。在长行为序列方面,哈希(ETA)、采样(SDIM)和去噪(ADFM)方法在性能和成本之间展示了其优势。
- 尽管 GNN 技术在学术研究中很受欢迎(如 SURGE、MBGCN、MB-GMN 等),但没有一个被在线部署。图数据处理需要大量计算资源,这对在线环境造成了沉重负担。
8 总结与未来展望
本次综述总结了用户行为建模的最新进展。从行为日志中可以发现丰富的用户偏好。借助 RNN、CNN 和基于 Attention 的技术,传统的 UBM 方法能够从行为序列中找到隐式反馈,从而大大提高性能。通过考虑长期行为历史、多类型行为和伴随用户行为的辅助信息,进一步取得了改进。尽管取得了可观的成就,UBM 研究仍然面临着学术和工业方面的挑战。
-
**更深入的信息融合。**尽管现有研究在长行为序列、多类型行为和辅助信息方面进行了探索,但它们的组合却很少被考虑。例如,建模长的多类型行为序列可能会带来新的改进,但也需要新的检索或采样技术。因此,各种有用信息的更广泛和更深入的融合仍有很大的探索空间。
-
**更高效的学习方法。**作为面向应用的研究,在线服务的有效性和效率之间存在权衡。随着行为长度、类型和辅助信息种类的增加,UBM 解决方案的计算和存储负担也显著增加。为了保持出色的性能,寻找计算负担轻的 UBM 解决方案始终是重要的。
-
**更可解释的用户表示。**尽管取得了改进,但所学习的用户兴趣表示并不具有良好的可解释性,这限制了 UBM 在其他应用中的使用,如用户画像和因果分析。因此,可解释的 UBM 是另一个有前景的未来研究方向。
-
**更先进的技术。**像预训练和大模型这样的先进深度学习技术在学术上已经被探索用于辅助信息学习。然而,在它们的工业部署之前仍存在很大的差距。