KGAT: Knowledge Graph Attention Network for Recommendation

原创

已于 2023-07-18 16:09:53 修改 · 1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #人工智能 #推荐算法

于 2023-07-17 11:35:07 首次发布

KGAT模型通过结合知识图谱和用户-项目交互数据，利用注意力机制捕捉高阶关系，解决了传统协同过滤和基于特征的模型的局限性。模型通过多层传播和聚合来丰富用户和项目的表示，优化包括协同过滤和知识图谱嵌入的损失函数。在训练过程中，交替进行CF和KGC任务，并更新注意力权重以提高推荐性能。

[1905.07854] KGAT: Knowledge Graph Attention Network for Recommendation (arxiv.org)

LunaBlack/KGAT-pytorch (github.com)

3.2 Attentive Embedding Propagation Layers

1、背景

CF方法，基于相似用户或者相似商品属性推荐，无法利用属性等各种side information，例如u1和u2相似，则可能会推荐i2

基于特征的SL模型，例如FM/NFM/Wide&Deep可以利用side-information，i1和i2有相同属性e1则推荐i2。

但是基于特征的SL模型单独的建模每个实例，没有建模实例之间的交互，无法从集体行为提取有用信息。例如u1很难对u1很难建模

尽管e1是连接导演和演员字段的桥梁。因此，我们认为这些方法没有充分探索高阶连通性，并且没有触及组合高阶关系

为了解决基于特征的SL模型的局限性，可以将知识图与用户-项目图的混合结构称为协同知识图(CKG)，但是也有挑战：1）与目标用户具有高阶关系的节点随着订单规模的增加而急剧增加，这会给模型带来计算过载；2）高阶关系对预测的贡献不平等，这需要模型仔细加权(或选择)它们。

已经有一些基于CKG模型进行推荐的方法：

（1）基于路径的方法

提取携带高阶信息的路径并将其输入到预测模型，但是第一阶段的路径选择对性能影响很大，而且定义有效元路径需要领域知识，工作过量很大。

（2）基于正则化的方法

基于正则化的方法设计额外损失项捕获KG结构，正则化推荐模型。联合训练推荐和KGC两个任务，两个任务间共享item embedding。这些方法不是直接将高阶关系插入为推荐而优化的模型中，而是以隐式的方式对它们进行编码。由于缺乏显式建模，既不能保证捕获远程连接，也不能解释高阶建模的结果。

考虑到上述局限性，作者开发一个能够以高效、显式和端到端方式利用KG中的高阶信息的模型。

2、任务定义

User-Item Bipartite Graph：在推荐场景中，通常有历史用户项目交互(例如，购买和点击)，将交互数据表示为用户-物品二部图。

Knowledge Graph：除了user-item之间的交互外，还有物品的side-information(例如，物品属性和外部知识)。通常，这些辅助数据由真实世界的实体和额外的知识组成。作者将side-information组成知识图，

并有一个实体和item的对齐的集合，

Collaborative Knowledge Graph：定义了CKG的概念，它将用户行为和商品知识编码为一个统一的关系图首先将每个用户行为表示为三元组(u, interaction,i)，其中y_ui = 1表示为用户u与项目i之间的附加关系interaction。然后基于entity-item对齐集，将user-item图与KG无缝集成为统一图

制定本文要解决的推荐任务:

•输入:协作知识图G，包括用户项二部图G1和知识图G2。

•输出:预测函数，预测用户u采用物品i的概率为 $\hat{y}_{ui}$ 。

3、模型

最主要的是将user-item交互也融入KG中计算

3.1 Embedding layer

使用TransR建模，首先将头实体eh和尾实体er利用由特定于关系的投影矩阵Wr投影到关系所在的空间，然后再计算三元组得分(投影的头实体+关系得到的向量，和投影的尾实体向量越相似越好，g越小越好)

损失采用对比学习方法

3.2 Attentive Embedding Propagation Layers

（1）权重计算

选择tanh作为非线性激活函数。这使得注意力得分依赖于关系r空间中eh和et之间的距离，为更接近的实体传播更多信息，为简单，只使用内积计算

接着使用softmax

最终的注意力得分能够建议应该给予哪些邻居节点更多的关注来捕获协作信号。在进行前向传播时，注意流会提示需要关注的部分数据，这可以视为推荐背后的解释。

（2）消息传递

为了表征实体h的一阶连通性结构，计算了h的自我网络的线性组合(自我网络，是h为头实体的三元组的集合)

（3）聚合

最后一个阶段是将实体自己本身的表征eh和它的自我网络表征e_Nh聚合为实体h的新表征——更正式地说， $e{_{(1)}^{h}}=f(e_{h},e_{N_{h}})$

GCN Aggregator：将两个表征向量求和，并经过一个非线性激活函数

GraphSage Aggregator ：将两个表征向量拼接，经过一个非线性函数

Bi-Interaction Aggregator：设计了两种函数，求和，以及两个特征向量元素积，并求和再通过一个非线性函数

（4）高阶传播

以上展示的是一阶传播和聚合的例子，很容易可以推广到高阶。

在第l步中，递归地将实体的表示表示为：

实体h在自我网络内传播的信息定义如下：

3.3 Model Prediction

执行L层后，得到用户节点u的多个表示，即 $\{e_{(u)}^{1},e_{(u)}^{2},...,e_{(u)}^{L}\}$ ;与项目节点i类似，得到 $\{e_{(i)}^{1},e_{(i)}^{2},...,e_{(i)}^{L}\}$ 。由于第l层的输出是图1中根于u(或i)的l的树结构深度的消息聚合，因此不同层的输出强调的是不同阶次的连通性信息。因此，采用层聚合机制，将每一步的表示concatence成单个向量