自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_52342142的博客

原创【论文精读】Aiming at the Target: Filter Collaborative Information for Cross-Domain Recommendation

大多数现有的解决方法主要集中在为重叠用户设计自适应表示。这些方法依赖于模型学习到的表示，缺乏明确的约束来过滤目标域中不相关的源域协作信息，这限制了它们的跨域迁移能力。文献提出了一种新的协作信息正则化用户转换（CUT）框架，通过直接过滤用户的协作信息来解决负迁移问题。在CUT中，目标域的用户相似性被用作用户转换的约束，以过滤源域的用户协作信息。首先，CUT从目标域学习用户相似性关系。然后，基于用户相似性的源-目标信息转移被用来指导用户转换层学习目标域的用户表示，并设计一个对比损失来监督用户协作信息的转移。

2025-03-01 15:57:16 1087

原创【论文精读】DisCo: Graph-Based Disentangled Contrastive Learning for Cold-Start Cross-Domain Recommendat

源域中具有相似偏好的用户在目标域中可能会表现出不同的兴趣。因此，直接迁移嵌入可能会引入不相关的源域协同信息。提出了一个基于图的解耦对比学习框架，以捕捉细粒度的用户意图并过滤掉不相关的协同信息，从而避免负迁移。具体而言，对于每个域，我们使用多通道图编码器来捕捉多样化的用户意图。然后，我们在嵌入空间中构建亲和图，并执行多步随机游走以捕捉高阶用户相似性关系。将一个域视为目标域，我们提出了一种以用户相似性为指导的解耦意图对比学习方法，以优化跨域的用户意图桥接。

2025-02-27 10:42:23 659

原创【王树森推荐系统公开课】笔记08（双塔模型＋自监督学习）

双塔模型学不好低曝光物品的向量表征。自监督学习：对物品做随机特征变换。特征向量和相似度高（相同物品特征向量和相似度低（不同物品实验效果：低曝光物品、新物品的推荐变得更准。训练模型对点击做随机抽样，得到 n 对用户—物品二元组，作为一个 batch（这个 batch 用来训练双塔从全体物品中均匀抽样，得到 m 个物品，作为一个 batch（这个 batch 用来做自监督学习，只训练物品塔做梯度下降，使得损失减小：。

2025-02-20 21:56:12 1101

原创【王树森推荐系统公开课】笔记07（双塔模型：正负样本、双塔模型：线上召回和更新）

正样本：曝光而且有点击。简单负样本全体物品。batch内负样本。困难负样本：被召回，但是被排序淘汰。错误：曝光、但是未点击的物品做召回的负样本。离线存储：把物品向量b存入向量数据库。完成训练之后，用物品塔计算每个物品的特征向量b。把几亿个物品向量b存入向量数据库（比如 Milvus、Faiss、HnswLib向量数据库建索引，以便加速最近邻查找。线上召回：查找用户最感兴趣的 k 个物品。给定用户 ID 和画像，线上用神经网络算用户向量a。最近邻查找：把向量a。

2025-02-20 17:28:10 926

原创【王树森推荐系统公开课】笔记06（双塔模型：模型和训练）

用户塔、物品塔各输出一个向量。两个向量的余弦相似度作为兴趣的预估值。三种训练方式：Pointwise：每次用一个用户、一个物品（可正可负Pairwise：每次用一个用户、一个正样本、一个负样本。Listwise：每次用一个用户、一个正样本、多个负样本。

2025-02-18 23:26:41 1134

原创【王树森推荐系统公开课】笔记05（矩阵补充、线上召回）

矩阵补充把物品ID、用户ID做 embedding，映射成向量。两个向量的内积作为用户对物品兴趣的预估。让拟合真实观测的兴趣分数，学习模型的 embedding 层参数。矩阵补充模型有很多缺点，效果不好。线上召回把用户向量作为 query，查找使得最大化的物品。暴力枚举速度太慢。实践中用近似最近邻查找。Milvus、Faiss、HnswLib 等向量数据库支持近似最近邻查找。

2025-02-16 20:27:43 1066

原创【王树森推荐系统公开课】笔记04（离散特征处理）

离散特征处理：one-hot 编码、embedding。类别数量很大时，用 embedding。用户 ID embedding。物品 ID embedding。

2025-02-15 22:38:59 548

原创【王树森推荐系统公开课】笔记03（UserCF）

UserCF 的原理用户 u1 跟用户 u2 相似，而且 u2 喜欢某物品，那么 u1 也可能喜欢该物品。用户相似度：如果用户 u1 和 u2 喜欢的物品有很大的重叠，那么 u1 和 u2 相似。公式：。UserCF 召回通道维护两个索引：用户→物品列表：用户近期交互过的 n 个物品。用户→用户列表：相似度最高的 k 个用户。在线做召回：利用两个索引，每次取回 nk 个物品。

2025-02-15 14:17:58 529

原创【王树森推荐系统公开课】笔记02（ItemCF）

ItemCF 的原理用户喜欢物品，那么用户喜欢与物品相似的物品。物品相似度：如果喜欢、的用户有很大的重叠，那么与相似。公式：。ItemCF 召回通道维护两个索引：用户→物品列表：用户最近交互过的 n 个物品。物品→物品列表：相似度最高的 k 个物品。在线做召回：利用两个索引，每次取回 nk 个物品。预估用户对每个物品的兴趣分数：返回分数最高的100个物品，作为召回结果。Swing 与 ItemCF 唯一的区别在于物品相似度。ItemCF。

2025-02-11 13:27:18 690

原创【王树森推荐系统公开课】笔记01（基本概念、推荐系统链路、A/B测试）

召回：用多条通道，取回几千篇笔记。粗排：用小规模神经网络，给几千篇笔记打分，选出分数最高的几百篇。整条链路上，召回和粗排是最大的漏斗，它们让候选笔记的数量从几亿变成几千，然后变成几百。精排：用大规模神经网络，给几百篇笔记打分。重排：做多样性抽样、规则打散、插入广告和运营笔记。当候选笔记只有几百篇的时候才能用大规模的神经网络做精排，才能用DPP这样的方法做多样性抽样。如果笔记的数量太大就不可能用大规模神经网络和DPP。

2025-02-09 14:16:36 1052

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除