- 博客(10)
- 收藏
- 关注
原创 【论文精读】Aiming at the Target: Filter Collaborative Information for Cross-Domain Recommendation
大多数现有的解决方法主要集中在为重叠用户设计自适应表示。这些方法依赖于模型学习到的表示,缺乏明确的约束来过滤目标域中不相关的源域协作信息,这限制了它们的跨域迁移能力。文献提出了一种新的协作信息正则化用户转换(CUT)框架,通过直接过滤用户的协作信息来解决负迁移问题。在CUT中,目标域的用户相似性被用作用户转换的约束,以过滤源域的用户协作信息。首先,CUT从目标域学习用户相似性关系。然后,基于用户相似性的源-目标信息转移被用来指导用户转换层学习目标域的用户表示,并设计一个对比损失来监督用户协作信息的转移。
2025-03-01 15:57:16
1087
原创 【论文精读】DisCo: Graph-Based Disentangled Contrastive Learning for Cold-Start Cross-Domain Recommendat
源域中具有相似偏好的用户在目标域中可能会表现出不同的兴趣。因此,直接迁移嵌入可能会引入不相关的源域协同信息。提出了一个基于图的解耦对比学习框架,以捕捉细粒度的用户意图并过滤掉不相关的协同信息,从而避免负迁移。具体而言,对于每个域,我们使用多通道图编码器来捕捉多样化的用户意图。然后,我们在嵌入空间中构建亲和图,并执行多步随机游走以捕捉高阶用户相似性关系。将一个域视为目标域,我们提出了一种以用户相似性为指导的解耦意图对比学习方法,以优化跨域的用户意图桥接。
2025-02-27 10:42:23
659
原创 【王树森推荐系统公开课】笔记08(双塔模型+自监督学习)
双塔模型学不好低曝光物品的向量表征。自监督学习:对物品做随机特征变换。特征向量和 相似度高(相同物品特征向量 和相似度低(不同物品实验效果:低曝光物品、新物品的推荐变得更准。训练模型对点击做随机抽样,得到 n 对用户—物品二元组,作为一个 batch(这个 batch 用来训练双塔从全体物品中均匀抽样,得到 m 个物品,作为一个 batch(这个 batch 用来做自监督学习,只训练物品塔做梯度下降,使得损失减小:。
2025-02-20 21:56:12
1101
原创 【王树森推荐系统公开课】笔记07(双塔模型:正负样本、双塔模型:线上召回和更新)
正样本:曝光而且有点击。简单负样本全体物品。batch内负样本。困难负样本:被召回,但是被排序淘汰。错误:曝光、但是未点击的物品做召回的负样本。离线存储:把物品向量b存入向量数据库。完成训练之后,用物品塔计算每个物品的特征向量b。把几亿个物品向量b存入向量数据库(比如 Milvus、Faiss、HnswLib向量数据库建索引,以便加速最近邻查找。线上召回:查找用户最感兴趣的 k 个物品。给定用户 ID 和画像,线上用神经网络算用户向量a。最近邻查找:把向量a。
2025-02-20 17:28:10
926
原创 【王树森推荐系统公开课】笔记06(双塔模型:模型和训练)
用户塔、物品塔各输出一个向量。两个向量的余弦相似度作为兴趣的预估值。三种训练方式:Pointwise:每次用一个用户、一个物品(可正可负Pairwise:每次用一个用户、一个正样本、一个负样本。Listwise:每次用一个用户、一个正样本、多个负样本。
2025-02-18 23:26:41
1134
原创 【王树森推荐系统公开课】笔记05(矩阵补充、线上召回)
矩阵补充把物品ID、用户ID做 embedding,映射成向量。两个向量的内积作为用户对物品兴趣的预估。让拟合真实观测的兴趣分数,学习模型的 embedding 层参数。矩阵补充模型有很多缺点,效果不好。线上召回把用户向量作为 query,查找使得最大化的物品。暴力枚举速度太慢。实践中用近似最近邻查找。Milvus、Faiss、HnswLib 等向量数据库支持近似最近邻查找。
2025-02-16 20:27:43
1066
原创 【王树森推荐系统公开课】笔记04(离散特征处理)
离散特征处理:one-hot 编码、embedding。类别数量很大时,用 embedding。用户 ID embedding。物品 ID embedding。
2025-02-15 22:38:59
548
原创 【王树森推荐系统公开课】笔记03(UserCF)
UserCF 的原理用户 u1 跟用户 u2 相似,而且 u2 喜欢某物品,那么 u1 也可能喜欢该物品。用户相似度:如果用户 u1 和 u2 喜欢的物品有很大的重叠,那么 u1 和 u2 相似。公式:。UserCF 召回通道维护两个索引:用户→物品列表:用户近期交互过的 n 个物品。用户→用户列表:相似度最高的 k 个用户。在线做召回:利用两个索引,每次取回 nk 个物品。
2025-02-15 14:17:58
529
原创 【王树森推荐系统公开课】笔记02(ItemCF)
ItemCF 的原理用户喜欢物品,那么用户喜欢与物品 相似的物品。物品相似度:如果喜欢、 的用户有很大的重叠,那么 与 相似。公式:。ItemCF 召回通道维护两个索引:用户→物品列表:用户最近交互过的 n 个物品。物品→物品列表:相似度最高的 k 个物品。在线做召回:利用两个索引,每次取回 nk 个物品。预估用户对每个物品的兴趣分数:返回分数最高的100个物品,作为召回结果。Swing 与 ItemCF 唯一的区别在于物品相似度。ItemCF。
2025-02-11 13:27:18
690
原创 【王树森推荐系统公开课】笔记01(基本概念、推荐系统链路、A/B测试)
召回:用多条通道,取回几千篇笔记。粗排:用小规模神经网络,给几千篇笔记打分,选出分数最高的几百篇。整条链路上,召回和粗排是最大的漏斗,它们让候选笔记的数量从几亿变成几千,然后变成几百。精排:用大规模神经网络,给几百篇笔记打分。重排:做多样性抽样、规则打散、插入广告和运营笔记。当候选笔记只有几百篇的时候才能用大规模的神经网络做精排,才能用DPP这样的方法做多样性抽样。如果笔记的数量太大就不可能用大规模神经网络和DPP。
2025-02-09 14:16:36
1052
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人