paper学习笔记 - PLE

针对推荐系统中多任务学习(MTL)存在的负迁移和跷跷板现象,提出了一种名为渐进分层提取(PLE)的新模型。PLE通过显式分离共享组件和任务特定组件,采用渐进路由机制,有效解决了这些问题,提高了推荐系统的性能。

发于2020年,Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized Recommendations | Papers With Code


摘要

然而,由于现实世界推荐系统中复杂且竞争的任务相关性,MTL模型往往会出现负迁移的性能退化(performance degeneration with negative transfer due to the complex and competing task correlation)。此外,通过对SOTA MTL模型的广泛实验,我们观察到了一个有趣的跷跷板现象(seesaw phenomenon),即一项任务性能的提升往往会损害其他一些任务的性能(that performance of one task is often improved by hurting the performance of some other tasks)。为了解决这些问题,我们提出了一种具有新颖共享结构设计的渐进分层提取(PLE:Progressive Layered Extraction)模型。PLE显式分离共享组件和任务特定组件,并采用渐进式路由机制逐步提取和分离更深层次的语义知识,提高了通用设置中跨任务的联合表示学习和信息路由的效率。(PLE separates shared components and task-specific components explicitly and adopts a progressive routing mechanism to extract and separate deeper semantic knowledge gradually, improving efficiency of joint representation learning and information routing across tasks in a general setup. )

引言

推RS)需要包括各种用户反馈,以模拟用户兴趣并最大化用户参与度和满意度。然而,由于问题的高维性,用户满意度通常难以通过学习算法直接解决。同时,用户满意度和参与度有许多可以直接学习的主要因素,例如点击、完成、共享、偏爱和评论等的可能性。因此,在RS中应用多任务学习(MTL)来同时建模用户满意度或参与度的多个方面的趋势越来越大。事实上,它已成为主要行业应用的主流方法[11、13、14、25]。

MTL在一个单一模型中同时学习多个任务,并通过任务之间的信息共享提高学习效率[2]。然而,现实世界推荐系统中的任务通常是松散相关的,甚至是冲突的,这可能导致性能恶化,称为负迁移[21]。通过在现实世界中大规模视频推荐系统和公共基准数据集中的大量实验,我们发现,当任务相关性复杂且有时依赖于样本时,现有的MTL模型往往会牺牲其他任务的性能来改进某些任务,即与相应的单任务模型相比,多个任务无法同时改进,本文称之为跷跷板现象。

之前的工作更多地致力于解决负迁移,但忽略了跷跷板现象,例如,十字绣(cross-stitch network )[16] 和水闸网络(sluice network) [18]建议学习静态线性组合以融合不同任务的表示,这无法捕获样本相关性。MMOE[13]基于输入应用门控网络来组合底层专家,以处理任务差异,但忽略了专家之间的差异和互动,这在我们的工业实践中被证明存在跷跷板现象。

为了实现这一目标,我们提出了一种新的MTL模型,称为渐进分层提取(PLE),该模型更好地利用共享网络设计中的先验知识来捕获复杂的任务相关性。与MMOE中的粗略共享参数相比,PLE显式分离共享专家和任务特定专家,以减轻公共知识和任务特定知识之间的有害参数干扰(PLE explicitly separates shared and task-specific experts to alleviate harmful parameter interference between common and task-specific knowledge)。此外,PLE引入了多层次专家和门控网络,并应用渐进分离路由从较低层次的专家中提取更深层次的知识,并逐步分离较高层次的任务特定参数(introduces multi-level experts and gating networks, and applies progressive separation routing to extract deeper knowledge from lower-layer experts and separate task-specific parameters in higher levels gradually)。

为了评估PLE的性能,我们在现实世界的工业推荐数据集和主要可用公共数据集(包括census-income [5], synthetic data [13] and Ali-CCP 1. )上进行了广泛的实验。实验结果表明,PLE在所有数据集上都优于最先进的MTL模型,不仅在具有挑战性复杂相关性的任务组上,而且在不同场景下,在具有正常相关性的任务群上,都显示出了一致的改进。此外,腾讯大型视频推荐系统在线指标的显著改进表明了PLE在现实推荐应用中的优势。

主要贡献总结如下:

•通过在腾讯和公共基准数据集的大规模视频推荐系统中进行的大量实验,发现了一个有趣的跷跷板现象,即SOTA MTL模型往往以牺牲其他任务的性能为代价来改进某些任务,并且由于复杂的内在相关性,其性能并不优于相应的单任务模型。

•从联合表示学习和信息路由的角度,提出了一种具有新型共享学习结构的PLE模型,以提高共享学习效率,进而解决跷跷板现象和负迁移问题。除了推荐应用之外,PLE还可以灵活地应用于各种场景。

•进行了广泛的离线实验,以评估PLE在工业和公共基准数据集上的有效性。腾讯全球最大的内容推荐平台之一的在线A/B测试结果也表明,在现实应用中,PLE比SOTA MTL模型有了显著改善,观看次数增加了2.23%,观看时间增加了1.84%,从而产生了可观的业务收入。PLE已经成功地部署到推荐系统中,并且可以潜在地应用到许多其他推荐应用中。

相关工作

有效的多任务学习模型和MTL模型在推荐系统中的应用是与我们工作相关的两个研究领域。在本节中,我们将简要讨论这两个领域的相关工作。

2.1多任务学习模型

图1a中所示的硬参数共享[2]是最基本和最常用的MTL结构,但由于任务之间直接共享参数,可能会由于任务冲突而遭受负转移。为了处理任务冲突,图1f中的 cross-stitch network [16] in Fig. 1f) 和 sluice network [18]都建议学习线性组合的权重,以选择性地融合来自不同任务的表示。然而,对于这些模型中的所有样本,都是以相同的静态权重来进行组合的(representations are combined with the same static weights for all samples in these models),并且没有解决跷跷板现象。在这项工作中,所提出的PLE(渐进分层提取)模型应用具有门结构的渐进路由机制来融合基于输入的知识,从而实现不同输入的自适应组合。

已经有一些研究将门结构和注意力网络应用于信息融合。MOE[8]首先提出在底层共享一些专家,并通过一个门控网络组合专家。MMOE[13]扩展了MOE,为每个任务使用不同的门,以获得MTL中的不同融合权重。类似地,MRAN[24]应用多头自注意来学习不同特征集的不同表示子空间。专家和注意力模块在所有任务之间共享,并且在MOE、MMOE(如图1所示)和MRAN中没有特定于任务的概念相比之下,我们提出的CGC(自定义门控制)和PLE模型将任务公共参数和任务特定参数显式分离,以避免复杂任务相关性导致的参数冲突。尽管MMOE在理论上有可能收敛到我们的网络设计中,但网络设计的先验知识很重要,MMOE在实践中很难发现收敛路径。Liu等人[10]应用任务特定注意网络来选择性地融合共享特征,但在注意网络融合之前,不同任务仍然共享相同的表示。以前的工作都没有明确解决表示学习和路由的联合优化问题,特别是以不可分割的联合方式,而这项工作首次尝试在联合学习和路由总体框架上提出一种新的渐进分离方式。

也有一些工作利用AutoML方法来寻找良好的网络结构。SNR框架[12]通过二进制随机变量控制子网络之间的连接,并应用NAS[26]搜索最优结构。类似地,Gumbel矩阵路由( Gumbel-matrix routing )框架[15]使用Gumbel Softmax技巧学习二进制矩阵。将路由过程建模为MDP,Rosenbaum等人[17]应用MARL[19]来训练路由网络。这些工作中的网络结构是在某些简化假设下设计的,不够通用。[17]中的路由网络为每个深度中的每个任务选择不超过一个功能块,这降低了模型的表达能力。Gumbel矩阵路由网络[15]对表示学习施加了约束,因为每个任务的输入需要在每个层合并为一个表示。此外,这些框架中的融合权重对于不同的输入是不可调整的,并且昂贵的搜索成本是这些方法寻找最优结构的另一个挑战。

2.2推荐系统中的多任务学习

为了更好地利用各种用户行为,多任务学习已广泛应用于推荐系统,并取得了实质性的改进。一些研究将传统的推荐算法(如协同过滤和矩阵分解)与MTL相结合。Lu等人[11]和Wang等人[23]对为推荐任务和解释任务学习的潜在表示进行正则化,以联合优化它们。Wang等人[22]将协同过滤与MTL相结合,以更有效地学习 user-item 相似度。与本文中的PLE相比,这些基于因子分解的模型表现出较低的表达能力,并且不能充分利用任务之间的共性。

作为最基本的MTL结构,硬参数共享已应用于许多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值