会议:AAAI 2025
论文:https://arxiv.org/abs/2412.15005
代码(待上传):https://github.com/HourunLi/2025-AAAI-DisCo
1 摘要
推荐系统在各种现实世界的应用中得到了广泛使用,但它们常常面临用户冷启动问题的持续挑战。跨域推荐(CDR)通过利用一个域中的用户交互来提升另一个域中的预测性能,已成为一种有前景的解决方案。
然而,源域中具有相似偏好的用户在目标域中可能会表现出不同的兴趣。因此,直接迁移嵌入可能会引入不相关的源域协同信息。在本文中,我们提出了一个基于图的解耦对比学习框架,以捕捉细粒度的用户意图并过滤掉不相关的协同信息,从而避免负迁移。
具体而言,对于每个域,我们使用多通道图编码器来捕捉多样化的用户意图。然后,我们在嵌入空间中构建亲和图,并执行多步随机游走以捕捉高阶用户相似性关系。将一个域视为目标域,我们提出了一种以用户相似性为指导的解耦意图对比学习方法,以优化跨域的用户意图桥接。
在四个基准CDR数据集上的广泛实验表明,DisCo一致地超越了现有的最先进基线,从而验证了DisCo及其组件的有效性。
DisCo框架
多通道图编码器:用于捕捉每个域中用户的多样化意图。
亲和图与随机游走:在嵌入空间中构建亲和图,并通过多步随机游走获取高阶用户相似性。
解耦意图对比学习:通过域内和域间对比学习,保留目标域中的用户相似性信息,同时过滤掉不相关的协同信息。
2 Introduction
CDR方法的主要思想是利用相关域中的用户交互数据来提高目标域中的预测性能。
冷启动CDR的挑战
-
冷启动问题的定义:冷启动CDR指的是用户在一个域中有交互记录,但在另一个域中没有交互记录的情况。例如,一个用户可能在电影域中有丰富的观影记录,但在音乐域中没有任何记录。这种情况下,如何为目标域中的冷启动用户提供有效的推荐是一个挑战。
-
传统方法的局限性:
-
嵌入和映射(EMCDR)范式:传统的EMCDR方法通常在两个域中分别编码用户偏好,并学习从源域到目标域的映射函数。然而,这种方法往往会忽略用户特定的多样化偏好。例如,一个用户在源域中可能有多种不同的偏好,但这些偏好在目标域中可能并不完全适用。
-
元学习方法:一些元学习方法将不同的用户CDR视为单独的任务,以实现用户特定的偏好迁移。这些方法通过学习用户特定的映射函数,将源域中的偏好转换为目标域中的偏好,并将其作为冷启动用户的初始嵌入。然而,这些方法仍然存在一定的局限性,特别是在处理用户偏好多样性方面。
-
负迁移问题的挑战
-
负迁移的定义:负迁移是指在跨域推荐中,源域中的信息并不总是与目标域相关,因此在训练过程中不加选择地引入源域数据可能会导致推荐性能下降。例如,如果源域中的用户偏好与目标域中的用户偏好不一致,直接迁移这些偏好可能会引入噪声,反而降低推荐的准确性。
-
现有方法的局限性:
-
解耦的用户表示:最近的研究尝试通过设计解耦的用户表示来解决负迁移问题,这些表示只传递相关信息。例如,CDRIB引入了两个信息瓶颈正则化器,鼓励学习到的表示编码域共享信息,同时限制域特定信息。DisenCDR学习解耦表示,以分离域共享和域特定的用户偏好。UniCDR提出了一个统一框架,以捕获不同CDR场景中的域共享和域特定用户偏好。
-
局限性:尽管这些方法表现出色,但大多数冷启动CDR方法都集中在用户嵌入迁移上,忽略了用户之间更详细的潜在意图和偏好相关性。
-
设计解耦的用户表示是一种方法,旨在将用户在不同域中的偏好分离成独立的表示,以便在跨域推荐(CDR)中只传递与目标域相关的偏好信息。这种方法通过解耦用户表示,避免了源域中的不相关信息对目标域推荐性能的负面影响,从而解决了负迁移问题。
用户偏好的复杂性
-
隐式交互下的潜在意图:用户偏好的形成是一个复杂的过程,需要在隐式交互下推断潜在意图。例如,用户在源域中的行为可能受到多种因素的影响,这些因素在目标域中可能不适用。
-
用户偏好在不同域中的差异:源域中表现出相似偏好的用户在目标域中可能有不同的兴趣。因此,源域中的协同知识在目标域中可能变得不相关甚至嘈杂,最终适得其反。
图1中的例子说明了用户在不同域中的偏好可能具有个体意图,这些意图在不同域中可能不一致。假设我们想学习目标域中用户的偏好。如果只考虑源域中与
相似的用户(如
)的偏好,可能会发现他们在源域中的偏好与
相似,但在目标域中却有很大不同。这意味着源域中的相似性并不能直接应用于目标域。因此,如果从这些已知用户的不相关偏好中学习,可能会引入偏差,导致推荐性能不佳。
DisCo框架
-
多通道图编码器:
-
目的:识别用户的潜在意图。
-
方法:使用多通道图编码器来捕捉用户在不同域中的多样化意图。
-
-
亲和图与随机游走:
-
亲和图:在两个域的嵌入空间中计算亲和图,表示用户之间的相似性。
-
随机游走:对每个锚点用户执行多步随机游走,以获取每个域中的高阶用户相似性。这有助于捕捉用户之间的复杂关系。
-
-
意图对比架构:
-
域内对比:在每个域内进行对比学习,保留用户在该域中的相似性信息。
-
域间对比:在源域和目标域之间进行对比学习,通过跨域解码器的帮助,保留目标域中的用户相似性信息。
-
目标:通过这种方式,当引入源域信息时,目标域特定的用户偏好可以得到保留,同时通过正则化两个域之间的关联,不相关的协同信息可以被有效过滤掉。
-
- 多通道图编码器:想象用户在不同域中的行为就像多条通道,每个通道代表一种意图。DisCo通过多通道图编码器来识别这些意图。
- 亲和图与随机游走:构建一个用户相似性图,就像一个社交网络图,用户之间的相似性用边表示。通过随机游走,DisCo可以发现用户之间的复杂关系,就像在社交网络中探索朋友的朋友。
- 意图对比架构:在源域和目标域之间进行对比学习,就像在两个不同的社交圈子中找到共同点,同时保留每个圈子的独特性。通过这种方式,DisCo可以保留目标域中的用户偏好,同时过滤掉不相关的源域信息。
主要贡献
-
概念贡献:强调了冷启动CDR中的负迁移问题,并提出通过交互图增强的更详细的解耦用户意图表示来过滤掉不相关信息。
-
方法贡献:提出了一种新颖的意图对比学习框架,通过保留目标域中的用户相似性信息,显式利用两个域之间的关联。
-
实验贡献:在多个公共数据集上进行了广泛的实验,结果表明DisCo在冷启动CDR任务中优于现有的最先进方法。
3 Related Work
跨域推荐
现有方法的局限性:当前的跨域推荐方法主要集中在将用户在一个域中的嵌入(即用户的行为和偏好数据)直接转移到另一个域中。然而,这些方法忽略了用户在不同域中可能存在的更细致的潜在意图和特定于域的偏好。换句话说,这些方法假设用户在不同域中的偏好是相似的,但实际上,用户在不同域中的行为和偏好可能有很大差异。
想象一下,你在一个电影网站上看电影,然后你去了一个音