读论文《Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation》

最新推荐文章于 2025-07-24 10:21:08 发布

原创

最新推荐文章于 2025-07-24 10:21:08 发布 · 2.8k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #人工智能 #知识图谱

该研究提出了一种名为MBHT的新型序列推荐框架，通过多尺度Transformer捕捉短期和长期的跨类型行为依赖，并利用超图神经架构学习全局的多行为相关性。MBHT在捕获用户动态偏好和长期项目相关性方面表现出优越性能，适用于具有多种交互行为的序列推荐场景。

0 Summary:

Title: Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation

conference: KDD 2022

论文链接：https://arxiv.org/pdf/2207.05584.pdf

Abstract:

学习动态用户偏好是序列推荐（sequential recommendations）的重要组成部分，但现有的方法主要集中在具有单一交互类型的项目序列表示上，因此仅限于捕获用户和项目之间的动态异构关系结构（例如,页面查看,添加到收藏夹,购买）

本文设计了一个多行为超图增强型Transformer框架 (Multi Behavior Hypergraph-enhanced Transformer ：MBHT)来捕获短期和长期的跨类型行为依赖性。

具体来说：多尺度 Transformer 结合低秩自注意力从细粒度和粗粒度级别联合编码行为感知序列模式。并将全局多行为依赖项引入到超图神经架构中，以捕获分层的长期项目相关性

粒度，可以理解为目标所容纳的逻辑。一个项目模块（或子模块）分得越多，每个模块（或子模块）越小，负责的工作越细，就说粒度越细，否则为粗粒度。

粒度更细，就能抽象出了更多的模型对应现实逻辑。

粗粒度和细粒度是一个相对的概念

**序列推荐（sequential recommendations）：**参考论文《Sequential Recommender Systems: Challenges, Progress and Prospects》

它通过对用户（user）行为序列，比如购买商品（item）的序列（sequence）来建模，学到user 兴趣的变化，从而能够对用户下一个行为进行预测。序列推荐的模型，随着整个CS research领域的发展，也是一直在不断变化。从最开始的Markov chain，到后来的RNN，CNN模型，以及现在流行的transformer。每个时期的序列推荐模型，基本上也是对应着该时期用的比较多的NLP模型。

原文链接：https://blog.youkuaiyun.com/paper_reader/article/details/109325928

超图（Hypergraph） 简单来说，我们所熟悉的图而言，它的****一条边*（edge）只能连接两个顶点*（vertice）；而超图，人们定义它的一条边（hyperedge）可以和任意个数的顶点连接。下图曲线和直线都属于超图的边，可连接不止两个顶点。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C4H6lD8d-1661160872248)(C:\Users\杨\AppData\Roaming\Typora\typora-user-images\image-20220819192510694.png)]

**低秩（Low-rank）：**从物理意义上讲，矩阵的秩度量的就是矩阵的行列之间的相关性。

可以理解为如果矩阵之间相关性很强，那么其便可以投影到更低维的线性子空间，将可以使用更少的向量表示（手动求秩的流程）那么就可以说其是低秩的。

那么如果矩阵表达的是结构性信息，例如本文中的用户-商品推荐表，矩阵各行之间存在这一定的相关性，那这个矩阵一般就是低秩的。

提供了一种协同过滤的思路，假设用户行为矩阵具有低秩的特性，那么是否可以根据这一特性预测其行为

1.简介

在这里插入图片描述

序列推荐旨在根据用户过去的行为序列预测未来用户的交互项目，虽然已经有很多研究，但大多数都只有单一类型交互，没有考虑多类型的用户-项目关系。

在这里插入图片描述

a:使用多行为动态的顺序推荐示例。

b:通过BERT4Rec和本文的MBHT学习到的行为感知的依赖权重:

可以看出本方法可以给好的展现多行为依赖

需要解决的问题

**动态行为感知项目转换：**如何明确捕获动态行为感知项目转换动态多阶关系学习范式多尺度时间动态仍然是一个问题。（存在不同的周期性行为：每日每周每月）（越南在不同类型的物品：日用品季节性服装）因此需要通过细粒度到粗粒度的时间级别显式的捕获行为感知项目转换的多尺度序列效应

**个性化的全局多行为依赖关系：**随着时间的推移，不同类型行为的隐式依赖因用户而异。例如，由于个性化和多样化的用户交互偏好，有些人会想要将产品添加到他们喜欢的列表中。其他人可能更喜欢生成他们最喜欢的商品列表，其中包含他们很可能购买的产品。也就是说，对于不同的用户，不同的行为对他们的兴趣有不同的时间感知依赖性。此外，逐项的（item-wise）多行为依赖关系超越了两两关系，可能表现出三元或事件高阶。因此，设计的模型需要使用动态多阶关系学习范式对不同用户的多行为依赖进行量身定制的建模。

注意力机制可以分为四类：基于输入项的柔性注意力（Item-wise Soft Attention）、基于输入项的硬性注意力（Item-wise Hard Attention）、基于位置的柔性注意力（Location-wise Soft Attention）、基于位置的硬性注意力（Location-wise Hard Attention）。

2 问题界定

Behavior-aware交互序列：
$用户u_i \in U \\存在behavior-aware交互序列S_i =[(𝑣_{𝑖,1}, 𝑏_{𝑖,1}), ..., (𝑣_{𝑖,𝑗}, 𝑏_{𝑖,𝑗}), ..., (𝑣_{𝑖,𝐽} , 𝑏_{𝑖,𝐽} )]\\ 定义b_{i,j}表示S_i中u_i和第j个项目v_j之间交互的类型（查看，收藏等）$
任务制定：

我们将与我们想要预测的行为类型的交互作用视为目标行为。其他类型的用户行为被定义为辅助行为，提供关于用户不同偏好的各种行为上下文信息。

输入：每个用户的行为感知交互序列(到J为止)

输出：能预测用户（u）与项目(v_j+1)通过目标行为（确定的b）在下一步（J+1）交互的概率的函数

3 模型

在这里插入图片描述

模型由三模块构成

1.对用户偏好的行为感知过渡形态的多尺度建模

Multi-scale modeling of behavior-aware transitional patterns of user preference

2.时间感知的用户交互的多行为依赖的全局学习

Global learning of multi-behavior dependencies of time-aware user interactions;

3.使用序列行为感知过渡模式和超图增强多行为依赖的编码表示的跨视图聚合

Cross-view aggregation with the encoded representations of sequential behavior-aware transitional patterns and hypergraph-enhanced multi-behavior dependencies.

a）将行为感知的交互上下文注入到条目嵌入中

b）基于低秩自注意和多尺度序列聚合的多尺度变压器结构捕获行为感知的过渡模式。通过融合函数融合尺度特定的行为模式

c）利用G上的超图神经架构来捕捉全局和个性化的多行为依赖性学习。

3.1 Multi-Scale Modeling of Behavior-aware

多尺度建模行为序列模式：多尺度建模行为序列模式使用多尺度动态捕获行为感知用户兴趣方面的技术细节

3.1.1 Behavior-aware Context Embedding Layer：

行为感知的上下文嵌入：

在这里插入图片描述

为了将交互信息引入序列学习框架，本节将单项信息与相应的交互行为上下文信号联合编码。将行为感知的潜在表示如下
$h_j = e_j \oplus p_j \oplus b_j\\ e_j 为初始项嵌入，b_j 为其交互类型的嵌入，p_j表示物品可选的位置嵌入$
p 用于区分不同交互物品的时间顺序信息

3.1.2 Multi-Scale Transformer Layer：

多尺度Transformer层：

在现实中，随着时间的推移，用户-物品交互偏好可能表现出多尺度的过渡形态。

例如我每周或每三天需要找不同类型的论文

为解决这个问题，提出了基于Transformer架构的多尺度序列偏好编码器来捕捉用户交互中的多粒度行为动态

多粒度表达式的粒度，可以理解成一种计算的方式。如果希望在计算的同时能排除掉另一维度对当前这个字段的影响，或者希望对当前这个字段进行计算的同时又能包含其他维度等类似的计算，多粒度就是指我们对于这样的计算可以有多种类型。它的存在是为了解决一些复杂计算，或者说给出一种更便捷的计算方式，相比以前的表达式，它的强大之处在于，可以仅通过一个式子就达到以前需要用多个表达式进行复杂调用的效果，另一方面，表达式的过多使用是会影响系统的性能的，现在一个多粒度表达式就能更加方便快捷的实现，所以从另一方面也是对系统性能进行了优化。

Low-Rank Self-Attention Module：

低秩自注意力：

在这里插入图片描述

Transformer 很适合关系型数据建模，但其自注意力机制存在高计算成本问题，本文设计了一个不含二次注意操作的低秩自注意层来近似线性模型复杂度。

通过低秩分解产生多个较小的注意力操作来拟合原始注意力，首先定义两个可训练投影矩阵来进行低秩嵌入变换：
$\in R^{\frac JC \times J }and F \in R^{\frac JC \times J }\\ C代表低秩的尺度，\frac JC 代表低秩潜在表示空间的数目$
就此，将低秩自注意力表示如下
$\hat H = softmax(\frac {H \cdot W^Q(E \cdot H \cdot W^K)^T} {\sqrt d}) \cdot F\cdot H\cdot W^V\\ W为用于嵌入的可学习的变换矩阵，E,F被用于将H \cdot W 转化为低秩嵌入 \hat H$