IEEE TCSS 2025 | MBIDR: 基于意图解耦的多行为推荐，精准捕获用户细粒度兴趣

最新推荐文章于 2025-12-10 13:50:41 发布

原创最新推荐文章于 2025-12-10 13:50:41 发布 · 948 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #神经网络

推荐系统专栏收录该内容

15 篇文章

订阅专栏

论文题目：Multibehavior Intent Disentangled Learning for Fine-Grained Interest Discovery in Recommendation
发表期刊：IEEE Transactions on Computational Social Systems (Vol. 12, No. 6, Dec 2025)
作者：Yuqing Du, Guan Yuan, Guixian Zhang 等
代码地址：https://github.com/shawn-dm/MBIDR

1. 引言：为什么我们需要“意图解耦”？

在推荐系统领域，利用用户的辅助行为（Auxiliary Behaviors，如浏览、收藏、加购）来辅助预测目标行为（Target Behavior，通常是购买）已经成为缓解数据稀疏问题的有效手段。

然而，现有的多行为推荐方法（如 GHCF, CEMBR 等）往往存在一个关键缺陷：忽略了用户交互背后的“意图”。

行为内的混淆 (Intra-behavior confusion)：同样是“浏览”行为，可能是用户无聊时的随意点击（弱偏好），也可能是为了深入了解商品详情（强偏好）。
行为间的混淆 (Inter-behavior confusion)：通常认为“购买”比“浏览”更能代表强偏好，但有时购买可能只是代购（弱偏好），而反复浏览可能隐含了极强的潜在兴趣。

为了解决这个问题，本文提出了一种多行为意图解耦推荐模型 (MBIDR)。该模型的核心在于：不仅关注用户做了什么（行为类型），更通过自动化的方式解耦用户为什么做（潜在意图）。

2. 模型架构详解

MBIDR 的整体框架主要包含三个核心模块：意图感知交互分类器、自适应关系学习以及模型预测与训练。

在这里插入图片描述

图 1：左侧是多行为交互图；中间展示了意图分类器（将交互划分为不同子图）和自适应融合过程；右侧是最终的预测层。

2.1 意图感知交互分类器 (Intent-Aware Interaction Classifier)

这是论文最核心的创新点。传统的做法是直接根据行为类型（View, Cart, Buy）划分自图，而 MBIDR 在此基础上，进一步将每种行为下的交互划分为不同的“意图类别”。

如何自动发现潜在意图？

由于用户的意图是隐式的（没有标签），论文设计了一个端到端的学习机制：

特征拼接：对于用户 $u$ 和物品 $i$ 在行为 $k$ 下的交互，拼接两者的 Embedding 输入到多层感知机（MLP）中。
$\pi = MLP(e_{u,k} || e_{i,k})$
其中 $\pi = [\pi_1, \pi_2]$ 表示该交互属于不同意图类别的概率（为简化模型，论文中设定为 2 类）。
Straight-Through Gumbel-Softmax (STGS) 采样：
为了将交互分配给特定的意图子图，我们需要得到一个 One-hot 向量。直接使用 argmax 操作是不可导的，无法进行反向传播。因此，作者使用了 Gumbel-Softmax 技巧。

$p_{m}=\frac{exp((g_{m}+log(\pi_{m}))/\tau)}{\Sigma_{n=0}^{1}exp((g_{n}+log(\pi_{n}))/\tau)}$
- $g_m$ 是从 Gumbel 分布中采样的噪声。
- $\tau$ 是温度系数（Temperature），控制分布的平滑程度。
STGS 的优势：它允许模型在训练过程中以概率的方式探索不同的意图划分，同时保持梯度可导。这避免了硬分类（Hard Assignment）导致的模型过早收敛于次优解。

最终，基于生成的 Mask 矩阵，原始的“浏览行为图”被拆分成了“浏览-意图1子图”和“浏览-意图2子图”。

2.2 自适应关系学习 (Adaptive Relation Learning)

将交互解耦到细粒度的意图子图后，如何聚合这些信息？简单的平均或固定权重（如认为购买权重 > 浏览权重）是不可取的，因为不同场景下用户意图的重要性是动态变化的。
在这里插入图片描述

图 2：模型通过注意力机制计算权重（如 $\alpha_{u,1}^{v_m}$ ），动态衡量不同意图子图对用户偏好学习的重要性。

子图信息传播：
在每个意图子图 $\mathcal{G}_{k}^{m}$ 上，使用图卷积聚合邻居信息：
$e_{u,k_{m}}^{(l)}=\sigma(Agg(\{e_{i,k}^{(l-1)}\odot e_{k}^{(l-1)}|i\in\mathcal{N}_{u,k_{m}}\})W^{(l)})$
这里不仅考虑了节点 Embedding，还融入了行为类型的 Embedding $e_k$ 。
多关系相关性建模 (Self-Attention)：
模型将所有意图子图下的用户表示拼接，利用 Self-Attention 机制自动学习权重 $\alpha_{u,k}$ ：
$\alpha_{u,k}=softmax((W_{2}^{k})^{\top}tanh((e_{u}W_{1}^{k})^{\top}))$
这使得模型能够根据上下文，赋予“强意图浏览”比“弱意图加购”更高的权重，从而实现更精准的偏好融合。

2.3 模型预测与训练

层级组合：采用类似 LightGCN 的策略，对不同 GNN 层的输出取均值（ $\beta=1/(L+1)$ ），得到最终的用户和物品表示。
非采样损失函数 (Non-sampling Loss)：
为了解决多行为数据中正负样本极度不平衡的问题，且避免负采样带来的偏差，论文采用了高效的非采样损失策略。
$\mathcal{L}(\Theta)=\sum_{k=1}^{K}\lambda_{k}\mathcal{L}_{k}(\Theta)+\mu||\Theta||_{2}^{2}$
该损失函数利用了全量的历史交互数据，通过权重系数 $\lambda_k$ 平衡不同行为任务的贡献。

3. 实验结果与分析 (Experiments)

实验在 Beibei (母婴电商) 和 Taobao (综合电商) 两个大规模真实数据集上进行。

3.1 核心性能对比 (SOTA Comparison)

MBIDR 与主流的单行为模型 (LightGCN等) 和多行为模型 (GHCF, CML, CEMBR等) 进行了对比。

模型	Beibei (Recall@10)	Beibei (NDCG@10)	Taobao (Recall@10)	Taobao (NDCG@10)
MBIDR	0.2205	0.1155	0.0891	0.0519
提升幅度	+14.37%	+16.20%	+9.86%	+15.33%

数据来源：Table II & Table III
在这里插入图片描述

主要结论：

MBIDR 在两个数据集上的各项指标均取得了最优结果。
相比最强基线，提升幅度显著，证明了细粒度的意图解耦能有效过滤噪声，增强强偏好信号的表达。

3.2 关键消融实验 (Ablation Study)

为了验证各模块的有效性，论文进行了详细的消融分析：

在这里插入图片描述

意图分类器有效吗？(RQ2)
- 变体 MBR (移除意图分类，直接在行为图上卷积) 的性能显著低于 MBIDR。
- 结论：粗粒度的行为建模存在严重的偏好混淆问题，意图解耦是必要的。
STGS 采样是必须的吗？(RQ3)
- 将 STGS 替换为 “MLP直接输出 + 梯度裁剪” (即硬分类)。结果显示 STGS 效果更好。
- 原因：硬分类容易让某些交互“死板”地固定在某一个类别中，缺乏探索性；而 Gumbel 噪声带来的随机性帮助模型找到了更优的划分边界。

3.3 鲁棒性分析 (Robustness)

模型在面对数据质量问题时表现如何？

面对数据稀疏 (Cold-start)：
- 将用户按交互数量分组，在交互最少（<9次购买）的用户组中，MBIDR 依然大幅领先 GHCF 和 CEMBR。
面对噪声交互 (Noise)：
- 在辅助行为中人为混入 10%~30% 的随机噪声。MBIDR 的性能下降幅度最小。
- 原因：意图分类器成功将这些随机噪声归类到了“低权重”的意图子图中，通过自适应加权抑制了它们的负面影响。