自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【论文精读】Aiming at the Target: Filter Collaborative Information for Cross-Domain Recommendation

大多数现有的解决方法主要集中在为重叠用户设计自适应表示。这些方法依赖于模型学习到的表示,缺乏明确的约束来过滤目标域中不相关的源域协作信息,这限制了它们的跨域迁移能力。文献提出了一种新的协作信息正则化用户转换(CUT)框架,通过直接过滤用户的协作信息来解决负迁移问题。在CUT中,目标域的用户相似性被用作用户转换的约束,以过滤源域的用户协作信息。首先,CUT从目标域学习用户相似性关系。然后,基于用户相似性的源-目标信息转移被用来指导用户转换层学习目标域的用户表示,并设计一个对比损失来监督用户协作信息的转移。

2025-03-01 15:57:16 1087

原创 【论文精读】DisCo: Graph-Based Disentangled Contrastive Learning for Cold-Start Cross-Domain Recommendat

源域中具有相似偏好的用户在目标域中可能会表现出不同的兴趣。因此,直接迁移嵌入可能会引入不相关的源域协同信息。提出了一个基于图的解耦对比学习框架,以捕捉细粒度的用户意图并过滤掉不相关的协同信息,从而避免负迁移。具体而言,对于每个域,我们使用多通道图编码器来捕捉多样化的用户意图。然后,我们在嵌入空间中构建亲和图,并执行多步随机游走以捕捉高阶用户相似性关系。将一个域视为目标域,我们提出了一种以用户相似性为指导的解耦意图对比学习方法,以优化跨域的用户意图桥接。

2025-02-27 10:42:23 659

原创 【王树森推荐系统公开课】笔记08(双塔模型+自监督学习)

双塔模型学不好低曝光物品的向量表征。自监督学习:对物品做随机特征变换。特征向量和​ 相似度高(相同物品特征向量​ 和相似度低(不同物品实验效果:低曝光物品、新物品的推荐变得更准。训练模型​​​​​​​对点击做随机抽样,得到 n 对用户—物品二元组,作为一个 batch(这个 batch 用来训练双塔从全体物品中均匀抽样,得到 m 个物品,作为一个 batch(这个 batch 用来做自监督学习,只训练物品塔做梯度下降,使得损失减小:​​​​​​​。

2025-02-20 21:56:12 1101

原创 【王树森推荐系统公开课】笔记07(双塔模型:正负样本、双塔模型:线上召回和更新)

正样本:曝光而且有点击。简单负样本全体物品。batch内负样本。困难负样本:被召回,但是被排序淘汰。错误:曝光、但是未点击的物品做召回的负样本。离线存储:把物品向量b存入向量数据库。完成训练之后,用物品塔计算每个物品的特征向量b。把几亿个物品向量b存入向量数据库(比如 Milvus、Faiss、HnswLib向量数据库建索引,以便加速最近邻查找。线上召回:查找用户最感兴趣的 k 个物品。给定用户 ID 和画像,线上用神经网络算用户向量a。最近邻查找:把向量a。

2025-02-20 17:28:10 926

原创 【王树森推荐系统公开课】笔记06(双塔模型:模型和训练)

用户塔、物品塔各输出一个向量。两个向量的余弦相似度作为兴趣的预估值。三种训练方式:Pointwise:每次用一个用户、一个物品(可正可负Pairwise:每次用一个用户、一个正样本、一个负样本。Listwise:每次用一个用户、一个正样本、多个负样本。

2025-02-18 23:26:41 1134

原创 【王树森推荐系统公开课】笔记05(矩阵补充、线上召回)

矩阵补充把物品ID、用户ID做 embedding,映射成向量。两个向量的内积作为用户对物品兴趣的预估。让拟合真实观测的兴趣分数,学习模型的 embedding 层参数。矩阵补充模型有很多缺点,效果不好。线上召回把用户向量作为 query,查找使得最大化的物品。暴力枚举速度太慢。实践中用近似最近邻查找。Milvus、Faiss、HnswLib 等向量数据库支持近似最近邻查找。

2025-02-16 20:27:43 1066

原创 【王树森推荐系统公开课】笔记04(离散特征处理)

离散特征处理:one-hot 编码、embedding。类别数量很大时,用 embedding。用户 ID embedding。物品 ID embedding。

2025-02-15 22:38:59 548

原创 【王树森推荐系统公开课】笔记03(UserCF)

UserCF 的原理用户 u1​ 跟用户 u2​ 相似,而且 u2​ 喜欢某物品,那么 u1​ 也可能喜欢该物品。用户相似度:如果用户 u1​ 和 u2​ 喜欢的物品有很大的重叠,那么 u1​ 和 u2​ 相似。公式:。UserCF 召回通道维护两个索引:用户→物品列表:用户近期交互过的 n 个物品。用户→用户列表:相似度最高的 k 个用户。在线做召回:利用两个索引,每次取回 nk 个物品。

2025-02-15 14:17:58 529

原创 【王树森推荐系统公开课】笔记02(ItemCF)

ItemCF 的原理用户喜欢物品​,那么用户喜欢与物品​ 相似的物品​。物品相似度:如果喜欢​、​​ 的用户有很大的重叠,那么​ 与​​ 相似。公式:。ItemCF 召回通道维护两个索引:用户→物品列表:用户最近交互过的 n 个物品。物品→物品列表:相似度最高的 k 个物品。在线做召回:利用两个索引,每次取回 nk 个物品。预估用户对每个物品的兴趣分数:返回分数最高的100个物品,作为召回结果。Swing 与 ItemCF 唯一的区别在于物品相似度。ItemCF。

2025-02-11 13:27:18 690

原创 【王树森推荐系统公开课】笔记01(基本概念、推荐系统链路、A/B测试)

召回:用多条通道,取回几千篇笔记。粗排:用小规模神经网络,给几千篇笔记打分,选出分数最高的几百篇。整条链路上,召回和粗排是最大的漏斗,它们让候选笔记的数量从几亿变成几千,然后变成几百。精排:用大规模神经网络,给几百篇笔记打分。重排:做多样性抽样、规则打散、插入广告和运营笔记。当候选笔记只有几百篇的时候才能用大规模的神经网络做精排,才能用DPP这样的方法做多样性抽样。如果笔记的数量太大就不可能用大规模神经网络和DPP。

2025-02-09 14:16:36 1052

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除