Win-Win: A Privacy-Preserving Federated Framework for Dual-Target Cross-Domain Recommendation

本文提出了一种名为P2FCDR的隐私保护跨域推荐方法,针对业务伙伴场景,通过联邦学习保护数据隐私,利用门控选择向量提取目标相关信号,避免负迁移。实验证明了其在推荐性能和隐私保护的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者介绍

中科院+京东
通讯作者:https://zhangjunbo.org/

Background

Cross Domain Recommendation(CDR)最近已被广泛研究,以缓解数据稀疏性问题,它利用辅助域中的数据来提高目标域的推荐性能。

现有的CDR方法通常认为用户行为数据可以跨领域完全共享,但由于用户数据非常敏感,这样的做法会造成隐私泄露的重大风险。

Motivation

  1. 有限的隐私保护能力
  2. 不完整的场景覆盖;
    一家公司倾向于在另一个领域寻求与另一家公司的合作,然后通过这些互补的信息来增强业务能力,但是现有的工作大多提出保护个体用户的隐私,因此没有考虑到保护商业伙伴的隐私的问题。
  3. 受益单向化
    提供源域数据的公司从单向传输中获益较少,并且很难被激励去参与这一过程;同时,无法直接通过双向跨域直接使得双方获益,因此如何提炼有用的信号以避免两个域之间负迁移是个尚需探索的领域。

现有的隐私保护跨域推荐方法更适合个人客户场景,而本文目标是业务合作伙伴场景,提供双向的性能改进激励。

Contributions

  1. 提出的P2FCDR是双目标跨域推荐的第一个隐私保护联邦框架
  2. 考虑了CDR中的信息融合,设计了一个门控选择向量,目的是在特征水平上提取与目标域高度相关的细粒度信号,以避免负迁移
  3. 在三个真实世界的数据集上进行了广泛的实验,以保证所提出的方法在推荐性能和隐私保护方面的有效性

Method

文章出了P2FCDR,一个用于双目标跨域推荐的隐私保护联邦框架;
目标是在不共享原始交互数据的同时,提高这两个领域的推荐性能。不区分源域或目标域,每个域的状态任务都在一个统一的框架中执行。

  1. 采用联邦学习机制,使原始数据保存在本地,只同步更新后的模型参数。设计点对点的网络拓扑结构,避免第三方的参与。
  2. 利用正交映射矩阵学习跨域之间的嵌入转换,并在传输前利用局部差分隐私技术扰动用户嵌入,进一步保护隐私。
  3. 提出基于门控选择向量的嵌入融合方法,根据域内和跨域用户嵌入的相似性,提取对目标域高度相关的特征级信号,避免负迁移。
  4. 在每个域内根据推荐损失更新参数,并同步对应的正交映射矩阵。

在这里插入图片描述

Representation Modeling

输入:每个领域的用户-物品交互数据
输出:用户和物品各自的embedding表示
方法:深度矩阵分解(DMF)
在这里插入图片描述

Embedding Transformation

输入:域中用户embedding和域外用户embedding
输出:域转化后的embedding + 传输前加密
然而,不同域间的数据分布可能存在很大差异,我们需要学习两个域的特征空间之间的映射关系,以实现更好的域自适应。
文章引入了一个潜在的正交矩阵,将用户embedding从辅助域转换到目标域,例如从域a转换到域B;
正交矩阵的作用:
首先,由于正交变换保留了变换前后用户嵌入的相似性,因此保留了向量的内积。
其次,它的逆映射矩阵等价于它的转置。因此,域B向域A的转换可以直接利用其转置来简化学习过程,减少计算复杂性。

因此最后假设域A的embedding要传到域B,那么转化的公式由公式(2)所示
在这里插入图片描述

Embedding Fusion

如果辅助域也存在数据稀疏性问题,则迁移的embedding信息可能还是不足的,或者目标域的embedding已经足够,不需要额外的补充;
此时,将会发生负转移。
因此,需要特征级选择向量来重构embedding的信息融合过程,以提取与目标域高度相关的特征粒度的信号。
文章使用的是L1距离来表示目标域中用户A的embedding与从源域迁移到目标域的embedding在某个维度上的差异。
在这里插入图片描述
最后可以通过调整不同域的权重来优化embedding
在这里插入图片描述

Parameter Update and Synchronization

  • 进行模型训练与预测,根据损失函数(跨域学习中经典的损失函数)的输出更新模型参数;
  • 每轮同步合作方之间的映射矩阵;
    在这里插入图片描述

Privacy analysis

在第一轮交换用户embedding的时候,使用LDP隐藏用户表征,但这种方法存在的问题是:加入的噪声越多,对数据的可访问性越差
在第二轮交换中,更新的正交映射矩阵在域之间进行交换与聚合,本文就不再使用隐私保护的方法了;

Experiments

Setup:
数据集:Amazon
文章在三个域之间进行了成对的组合,并且只选择跨域的公共用户的用户-项目交互数据;
在这里插入图片描述
对比方法:

  1. 单域推荐
  2. 跨域推荐
  3. 基于隐私保护的跨域推荐
    在这里插入图片描述

Centralized VS Federated
集中式模型是一种用集中式数据直接训练的模型,其模型的体系结构与P2FCDR完全相同。
在这里插入图片描述
Privacy budget:
当λ大于0.04时,模型的性能显著下降,因此必须在性能和隐私保护之间进行权衡。因此,文章更倾向于将λ设置为0.02,以保护λ 隐私,而不会造成明显的性能损失。
在这里插入图片描述

Conclusion

提出了一种保护隐私的CDR框架P2FCDR,利用联邦学习机制在本地存储用户数据,而不是与其他领域共享,以保护业务伙伴的数据隐私。
同时基于域内和跨域用户嵌入之间的相似性,推导出了一个门控选择向量,用于提取与目标域高度相关的有用信号。

思考:

联邦+跨域(迁移学习)的有效组合

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值