KGPolicy：用于推荐的负采样模型（知识图谱策略网络）WWW 2020-优快云博客

本文链接：https://blog.youkuaiyun.com/u013602059/article/details/107618136

KGPolicy是一种新的负采样模型，它使用强化学习智能体在知识图谱中探索高质量的负样本，以改进推荐系统的训练。模型通过两跳路径捕获知识感知的负例，利用邻居注意力模块自适应地选择负例，并通过邻居修剪模块减少计算过载。实验证明，KGPolicy在负样本质量和知识条目使用上优于其他方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
论文链接：https://arxiv.org/pdf/2003.05753.pdf
代码链接：https://github.com/xiangwang1223/kgpolicy

摘要

合理的处理缺失数据在推荐系统中是的一个根本挑战。目前的大多数工作都是从未观察到的数据中进行负采样，以提供带有负信号的推荐模型训练。然而，现有的负采样策略，无论是静态的还是自适应的，都不足以产生高质量的负样本-这既有助于模型训练，也有助于反映用户真实的需求。

在这项工作中，我们假设项目知识图(KG)，它提供了项目和KG实体之间的丰富关系，可以用来推断有价值的负样本。

本文开发了一种新的负采样模型-知识图策略网络(KGPolicy)，它作为一种强化学习智能体来探索高质量的负样本。具体来说，通过进行我们设计的探索操作，它从用户项目正项交互中导航，自适应地接收知识感知的负信号，并最终产生一个负项目训练推荐系统。我们在装有KGPolicy的矩阵分解模型上进行了测试。

1、引言

推荐系统已广泛应用于实际应用中，以提高用户满意度和参与度。从历史用户-项目交互中训练推荐模型，正例和负例的用户反馈，被要求以确保模型生成合理的个性化排序[13，23，33]。然而，大多数互动都是以隐反馈的形式进行的，例如点击和购买，这只提供信号的正反馈。这就给推荐模型学习带来了根本的挑战—如何从仅有正例数据中提取负例数据-这也被称为一类问题。

由于负面信号潜伏在未观察到的数据中，一个普遍的解决方案是执行负采样，这比将所有未观察到的相互作用视为负例更有效。现有的负采样策略可分为三种类型：静态采样器、自适应采样器和具有额外行为的增强采样器。然而，每种方法都有一些固有的局限性。

鉴于负采样的基本作用和现有方法的局限性，我们在本工作中将重点放在负采样上，旨在通过引入其他类型的数据来提高其质量。高质量的负采样应该满足两个要求：1)信息性，这意味着目前的模型对它们的评分相对较高，因此将它们更新为负例将会我显著地改变模型参数，2)事实，这意味着它们是真正的负例，即用户以前知道它们（通过系统或其他方式暴露），但没有选择它们。由于自适应采样器可以实现对信息的要求，关键的挑战在于从缺失的数据中发现真实的负例，这些数据本质上缺乏真实性。

在这项工作中，我们假设知识图(KG)，它引入了项目和现实世界实体之间的额外关系（来自项目属性或外部知识），可以从未观察到的数据中推断真实的负例。虽然将KG纳入推荐中最近得到了广泛的研究，但这些研究只利用KG建立预测模型，以前的工作没有使用它来增强负采样器。

为此，我们提出了一种新的负采样模型KGPolicy（简称知识图策略网络），该模型采用强化学习(RL)代理来探索KG以发现高质量的负采样。核心是设计的探索操作，它从用户项正例探索，选择两个顺序邻居(例如，一个KG实体和一个项目)访问。这样的两跳路径可以捕捉到知识感知负例。为了实现这一目标，我们设计了一个邻居注意力模块，该模块指定了以正例用户项对为条件的一跳和两跳邻居的不同重要性，以便自适应地捕获对KG实体的偏好，并产生潜在的项目。通过递归地进行这种探索，KGPolicy学会为目标正例交互选择潜在的负例。此外，路径历史作为支持证据，揭示了为什所选项目被视为负实例。为了证明我们的方法，我们使用了一个简单的线性模型，矩阵分解(MF)，作为推荐者，使用KGPolicy训练该模型。

总之，这项工作作出了以下主要贡献：
1）据我们所知，我们是第一个将知识图纳入负抽样的，目的是选择高质量的负例与正例用户项交互配对。
2）我们开发了一种用于负采样的强化学习KGPolicy，它有效地学习了用多跳探索路径得到高质量的负例。
3）我们对三个基准数据集进行了广泛的实验，证明了KGPolicy在抽样有效性和知识条目使用方面的优势。

2、任务描述

我们首先呈现交互数据和知识图谱，制定我们的任务，并强调多跳路径中的负例。

Interaction Data 设 $\mathcal{O}^+=\{(u，i)|u∈\mathcal{U}，i\in\mathcal{I}\}$ 是隐式反馈，其中每个 $(u ， i)$ 对表示用户 $u$ 和正项 $i$ 之间的历史交互， $\mathcal{U}$ 和 $\mathcal{I}$ 分别表示用户和项目的集合。

Knowledge Graph 在最近的研究工作启发下，我们以知识图谱(KG)的形式组织项目属性或外部知识以及交互数据。正如先前的工作所显示的，用户项交互数据中的项目可以与KG中的相应实体对齐。

Task Description 建立了用户行为和项目知识，旨在利用这些丰富的信息来指导采样器的学习。我们的目标是知识感知的负采样，如下： $j\sim f_S(u,i,\mathcal{G})$

$f_S(\cdot)$ 是用 $Θ_S$ 参数化的采样器。它产生对未观察项目的经验分布，以产生知识感知的负采样项目 $j$ 。此外，正例 $i$ 的排他性KG实体 $\{p|(i，p)∈\mathcal{G}，(j，p)\notin\mathcal{G}\}$ 有助于解释为什么目标用户 $u$ 对负例 $j$ 不那么感兴趣。例如， ${p_2\}$ 可能是用户 $u_1$ 行为在项目 $i_1$ 和 $i_4$ 之间差异的原因。
在这里插入图片描述

Negative Signals in Multi-hop Paths 为此，我们旨在探索KG的结构信息，特别是节点之间的高阶连通性，以发现合适的负例。对于正例 $(u ， i)$ 交互，我们可以遍历根节点 $i$ 的路径，终止于未观察到的项 $j$ ，并将多跳连接视为 $i$ 和 $j$ 之间的关系。然而，很明显，不同的路径在发现负例的过程中有不同的置信度，并不是所有的路径都有助于提取负例信号。 $i\to e'\to j\quad\text{with}\quad e'\in\mathcal{E}$

1）informative 由于两个Items $i$ 和 $j$ 共享相同的KG实体 $e^{'}$ ，它们可能具有相似的表示，它们的成对比较可能在推荐参数上提供较大的梯度。
2）reflective of user real tastes 因为如果 $e^{'}$ 是 $u$ 感兴趣的一个重要因素， $j$ 可能已经通过其他方式（例如搜索、营销或广告系统）暴露于 $u$ 。然而， $u$ 选择了 $i$ 而不是 $j$ ，这表明 $u$ 可能真的不那么对 $j$ 感兴趣。因此， $(u ， j)$ 被认为是一个更好的负例用于训练推荐模型。此外，如果 $j$ 是以较低的置信度为负例估计的，我们可以通过扩展来继续探索这样的原子路径。例如，从 $i \to e \to j^{'} \to e^{'} \to j$ 中可以发现 $j^{'}$ 项，并且具有较高的负置信度。

3、KGPolicy模型

如下图所示，该框架由一个推荐器和一个采样器组成。然后，详细阐述了采样器KGPolicy，其目标是学习探索到KG上的负例。进行探索的操作分为三个步骤。

1）图形学习模块，它预先准备节点的高质量表示。
2）邻居注意力机制模块它利用两个注意模型进行路径查找，并确定下一个访问哪个合适的节点。
3）neighbor pruning module 这减少了搜索空间，以解决上述模块中的计算过载。反复进行这样的探索，KGPolicy最终能够产生一个潜在的负例项目来配对正例目标。

最后，KGPolicy和推荐被共同训练以提供推荐。
在这里插入图片描述

3.1、Recommender

为了证明我们的知识感知采样器的有效性，我们使用了一个线性和简单的模型，矩阵分解(MF)，作为推荐模型。更具体地说，MF将用户和项目的ID信息参数化为嵌入，并使用用户和项目嵌入的内积作为预测函数来估计用户 $u$ 选择项目 $i$ 的可能性。 $\hat{y}_{ui}=f_R(u,i)=\textbf{r}_u^{\top}\textbf{r}_i$ 其中， $\hat{y}_{ui}$ 是 $(u, i)$ 相互作用的预测分数。将 $f_R(\cdot)$ 抽象为具有推荐参数 $\Theta_R$ 的交互函数； $\textbf{r}_u\in R^d$ 和 $\textbf{r}_i\in R^d$ 分别是用户 $u$ 和项目 $i$ 的ID嵌入表示， $d$ 是嵌入维度。

我们使用成对的BPR损失作为目标函数来优化和学习 $Θ_R$ 的参数。 $\text{min}_{\Theta_R}\sum_{(u,i)\in \mathcal{O}^+}\mathbb{E}_{j\sim f_S(u,i,\mathcal{G})}-\text{ln} \sigma(f_R(u,i)-f_R(u,j))$ $\Delta_{u,i,j}=1-\sigma(f_R(u,i)-f_R(u,j))$ 负样本的信息性可以测量为梯度大小。这反映了成对偏好 $(u ， i ， j)$ 对改善 $Θ_R$ 的贡献。因此，低质量的负例，被分配到比 $i$ 更小的分数，使梯度幅度接近0，因此对优化贡献很小。所以，和正例相比，一个信息丰富的负面信息有望接近正例的预测分数。

3.2、Knowledge-aware Sampler

我们以KG作为取样器的环境。这使我们能够利用项目和KG实体之间的丰富关系，特别是高阶连通性，以探索更合适的负例。基本思想是，以目标用户为条件，从正例的项目开始，学会在KG结构上探索，然后沿着探索的路径产生可能的负例。在大规模的KGs中，无法列举所有未观察到的项目的可能路径，因为它需要劳动密集型的特征工程，存储这些路径需要大量的内存，消耗大量时间。因此，我们设计了一种智能采样器作为强化学习(RL)，对KG进行自动探索。

Sampling as Reinforcement Learning

我们将采样作为马尔可夫决策过程（MDP）