Large-scale Collaborative Filtering with Product Embeddings阅读笔记

最新推荐文章于 2025-05-21 19:45:03 发布

原创最新推荐文章于 2025-05-21 19:45:03 发布 · 334 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#推荐系统 #注意力

2019年，Amazon提出一种结合协同过滤与注意力机制的深度学习模型，有效解决大规模个性化推荐问题，线上效果超越现有最优模型。该模型利用深度注意力机制和表示学习技术，即使在高负载环境下亦能高效运行，且易于整合新信息。

部署运行你感兴趣的模型镜像

embedding系列
2019 Amzaon融合协同过滤和注意力机制，学习物品向量，线上效果超过最优模型
没有找到代码地址
本文在隐式反馈协同过滤的框架下提出一种基于深度学习的方案解决大规模个性化推荐问题
该方法融合了深度注意力机制，以内容无关的历史行为权重，和表示学习技术，模型达到超高负载，并能方便融合新的信息，计算效率较高
离线实验和其他替代方案做了对比，结果表明有较大提升。线上表现与当前线上个性化物品推荐效果相当

传统的基于用户和物品隐向量的推荐系统最多只能扩展到用户和物品量级的线性级别，当用户和物品量级巨大的时候，基于矩阵分解的协同方法计算量和内存消耗是个难题
本文探索了大规模协同过滤隐式反馈下预训练物品隐向量的很多方法
本文仅基于用户和物品的交互历史数据学习物品的隐向量，物品向量的学习方法是基于2013年Mikolov的Word2vec方法（skip-gram），用排序过得用户行为代替单词序列
每个序列包含单个用户的购买，物品查看，数字视频和音乐流。有一个窗口在每个序列滑过，并记录窗口内的共现对。
对每个物品i，这样会产生一个共现上下文，即物品集合Si。除了共现上下文的正样本集合Si，还在物品中根据某些分布随机采样了负样本集合Ni。
这样做的目的是希望学习到的隐向量能把频繁共现的物品映射到相似的位置，不相似的物品保有一定距离。
学习完隐向量后保持不变，作为后续模型和工作的直接输入。
使用预训练而不是联合学习的目的是简化问题，降低参数量，模型可以独立训练。这一点对于要求模型要持续更新的大规模推荐场景是非常重要的
尽管这一点会限制模型表达能力，但具体的限制程度不是很确定。使用固定隐向量也可以帮助确认实验效果是由于架构导致。

基于注意力的协同过滤

很多大规模电商数据集用物品类型和分类表示用户交互特征。对于判断一个给定物品是否和某个用户相关的任务，可以假设只有用户历史交互行为的子集能提供有用信息，而且这个近似子集可能会根据物品变化而变化。
对历史物品交互使用求和或取平均这样的静态联结操作所产生的表示，并不能有这样的选择性。本文使用另一种联结操作，独立于查询的权重平均（注意力），提供一个更近似的集合。

模型描述

本文使用概率的方法排序物品，目的是基于观测到的用户历史交互对用户u可能与物品q产生交互的可能性建模。
模型的第一步是使用参数化的函数h和f分别转换候选物品q和每个之前观测到的物品i。
q转换后的表示和用户之前交互过的物品逐个点积比较。这些比较结果经过softmax函数的normalize后产生一个注意力权重向量
$pi=softmax(f(xi)Th(xq)),i∈Aup_i = softmax(f(x_i)^T h(x_q)), i \in A_u$
下一步， $A_u$ 中的物品向量经过转换函数g被约减到单个d维向量，然后根据权重 $p_i$ 取凸组合
$z=∑i∈Aipig(xi)z=\sum_{i\in A_i} p_i g(x_i)$
这一系列组合成多层操作。通过将query和注意力机制的输出相加并将其结果作为下一层的query
K层结果可以写为：
$z^0 = h(x_q)$
$p_i^k = softmax((f^k (x_i))^T z^{k-1})$
$zk=zk−1+∑i∈Aupik(gk(xi))z^k = z^{k-1} + \sum_{i\in A_u} p_i^k (g^k (x_i))$
k=1, … , K
得到的联合结果表示 $z := z^K$ 即query项q和用户的历史交互物品集合 $A_u$ 被约减为一个分数
$A_u) = \sigma(\phi^T z)$ , $σ(∗)\sigma (*)$ 是logistic函数，$ \phi \in R^{d’}$是所有用户-查询query对共享的权重向量

f, g， h函数的使用使得物品的隐向量可以被用于各种用途，而不必每次重新学习海量物品的表示
层与层之间的参数不共享，所以每层可能关注的是不同方面的相似度。
在本文的实验中，f，g，h使用的是单层线性神经网络的形式
$fk,gk,h:Rd⟶Rd′f^k, g^k, h: R^d \longrightarrow R^{d'}$
$f^k(x) = B_{fk}x + c_{fk}$
$g^k(x) = B_{gk}x + c_{gk}$
$h(x) = B_h x + c_h$

目标函数

为了优化模型，本文把用户的交互项集合 $A_u$ 分解成未来和观测到的物品交互。根据历史交互预测未来交互把整个问题化简成多标签分类问题，这样就可以通过最小化负log似然解决
$L(θ)=−∑u∈U∑q∈A[I{q∈Su}logγ(q,τ)+I{q∈A\Su}log(1−γ(q,τu))]L(\theta) = -\sum_{u\in U} \sum_{q\in A}[\mathbb I \{q\in S_u\}log\gamma (q, \tau) + \mathbb I \{q\in A \backslash S_u \} log(1-\gamma(q, \tau_u))]$
但是实际应用中 $∣ A ∣$ 会很大，这样以来将所有物品相加的计算量就会很大。本文采用了负采样技术来缓解这个问题。对于每个用户根据平滑的经验分布 $PγP_{\gamma}$ 采样一个负样本集合， $Nu⊂A,Nu⋂Su=∅N_u \subset A, N_u \bigcap S_u = \varnothing$
为了能在训练过程中采样，本文采用了替代方法，以O(1)的时间根据类别分布采样。损失函数中给每个训练实例中的正负样本相同的权重方案，这样可以保持损失规模和每个实例中的正负样本数目无关。
这也使得调参更加容易。因此得到以下损失函数：
$L^=−∑u∈U[12∣Su∣∑q∈Sulogγ(q,τu)+12∣Nu∣∑q∈Nulog(1−γ(q,τu))]\hat L = -\sum_{u\in U} [\frac{1}{2|S_u|} \sum_{q\in S_u}log\gamma(q, \tau_{u}) + \frac{1}{2|N_u|}\sum_{q\in N_u}log(1-\gamma (q, \tau_u))]$