IGR-SR: 序列推荐中的意图引导推理

最新推荐文章于 2026-01-09 21:51:15 发布

原创最新推荐文章于 2026-01-09 21:51:15 发布 · 862 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #神经网络

推荐系统专栏收录该内容

16 篇文章

订阅专栏

论文题目：Intent-Guided Reasoning for Sequential Recommendation
作者：Yifan Shao, Peilin Zhou (香港中文大学)
发布时间：2025 (arXiv:2512.14034) https://arxiv.org/pdf/2512.14034
关键词：序列推荐、推理时计算 (Inference-time Reasoning)、意图解耦、对比学习

1. 引言：现有“推理式推荐”的困境

序列推荐（Sequential Recommendation, SR）的核心挑战在于从用户历史交互中捕捉动态变化的偏好。近年来，受到大语言模型（LLM）中 Chain-of-Thought (CoT) 的启发，研究者们开始探索“推理增强（Reasoning-enhanced）”的推荐范式（如 ReaRec, LARES）。

与直接将历史行为映射为预测结果的传统方法（如 SASRec）不同，推理增强模型试图模拟一个“深思熟虑”的过程，生成中间推理步骤。然而，作者指出这种范式存在两个核心痛点：

推理不稳定性 (Reasoning Instability)：
现有的推理过程仅由“下一个目标物品”作为监督信号。这使得推理过程对近期的交互极其敏感。例如，用户的一次误触（Accidental Click）可能导致推理路径发生剧烈偏移，从而产生错误的推荐。
表层推理 (Surface-level Reasoning)：
模型往往只是死记硬背了物品间的跳转概率（例如“买了A之后大概率买B”），而没有真正理解行为背后的内在意图（例如“用户正在探索户外活动”）。这种推理缺乏泛化能力，难以应对复杂的行为模式。

为了解决上述问题，本文提出了 IGR-SR (Intent-Guided Reasoning for Sequential Recommendation)。其核心思想是：显式提取高层的用户意图（High-level Intents），并将其作为锚点来引导每一步的推理过程。

2. 模型架构详解 (Methodology)

IGR-SR 的整体架构如下图所示，包含三个核心组件：潜在意图蒸馏器 (LID)、意图感知审慎推理机 (IDR) 以及 意图一致性正则化 (ICR)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1：模型首先通过冻结参数的 LID 提取意图 Token，经过 MLP 投影后，输入到 IDR 中进行双阶段推理（Cross-Attention 融合意图 + Self-Attention 序列建模），最后辅以对比学习损失。

2.1 潜在意图蒸馏器 (Latent Intent Distiller, LID)

如何在不引入巨大计算开销的前提下提取用户意图？作者借鉴了 LLM 中的 Prompt Tuning 和 SoftCoT 技术，设计了一个轻量级的蒸馏模块。

输入序列构建：
为了激发预训练模型提取意图的能力，作者在原始用户序列 $S^u$ 的前端添加 $k$ 个可学习的 Prefix Tokens ( $P$ )，在末端添加 $m$ 个 <intent> Tokens ( $I$ )：
$S_{aug}^{u} = \text{Concat}(P, S^{u}, I)$
其中 $P$ 充当任务特定的指令（Instruction），引导模型关注意图信息； $I$ 则作为意图信息的聚合容器。
冻结编码器 (Frozen Encoder)：
将 $S_{aug}^{u}$ 输入到一个预训练好且参数冻结的 SASRec 编码器中。
$H_1 = \text{LID}(S_{aug}^{u})$
关键点：在训练过程中，梯度的反向传播只更新 $P$ 和 $I$ 的 Embedding，编码器参数保持不变。这使得 LID 模块极其高效。
意图提取与投影：
最终的意图表示 $T_I$ 取自序列末尾对应 <intent> tokens 的输出状态。为了解决 LID 与主模型（IDR）之间的维度和语义空间差异，引入了一个 MLP 投影层：
$T_D = f_{\theta}(T_I) \in \mathbb{R}^{m \times d}$

2.2 意图感知审慎推理机 (Intent-aware Deliberative Reasoner, IDR)

这是模型的主体，负责执行“意图引导”的推理。作者认为，简单的拼接（Concatenation）会导致位置编码污染（Positional Encoding Contamination），因此提出了一种双重注意力架构 (Dual-Attention Architecture)，将推理显式解耦为两个阶段。

阶段一：意图审思 (Intent Deliberation)

在此阶段，模型利用全局意图来丰富局部物品的上下文表示。使用 Cross-Attention 机制，让序列中的每个 item 动态“检索”相关的意图信息：

Query ( $Q$ ): 上一层的序列表示 $H^{(l-1)}$
Key ( $K$ ) / Value ( $V$ ): 投影后的意图向量 $T_D$

$H_{cross}^{(l)} = H^{(l-1)} + \text{CrossAttn}(Q=H^{(l-1)}, K=T_D, V=T_D)$
通过这种方式，模型能够根据当前的上下文，有选择性地吸收最相关的全局意图，从而纠正局部的噪声偏差。

阶段二：决策制定 (Decision-Making)

在融合了意图信息后，模型回归到经典的序列建模任务。使用标准的 Masked Self-Attention 来捕捉序列内部的时间依赖性：
$H_{self}^{(l)} = H_{cross}^{(l)} + \text{MaskedSelfAttn}(H_{cross}^{(l)})$
最终输出经过前馈网络（FFN）和层归一化（LayerNorm）得到。

2.3 意图一致性正则化 (Intent Consistency Regularization, ICR)

为了增强模型对意图引导的鲁棒性，防止模型“过度依赖”某一个特定的意图维度（可能会导致过拟合），作者引入了基于对比学习的正则化目标。

掩码意图增强 (Masked Intent Augmentation)：
对投影后的意图向量 $T_D$ 进行两次独立的随机 Mask（Dropout），生成两个视图 $T_D^{(1)}$ 和 $T_D^{(2)}$ ：
$T_D^{(1)} = T_D \odot M^{(1)}, \quad T_D^{(2)} = T_D \odot M^{(2)}$
其中 $M$ 是服从伯努利分布的掩码矩阵。
对比损失 (InfoNCE Loss)：
将这两个视图分别输入 IDR，得到两个用户表示 $h_u^{(1)}$ 和 $h_u^{(2)}$ 。目标是最大化同一用户在不同掩码视图下的一致性：
$\mathcal{L}_{\text{IntentCL}} = -\log \frac{\exp(\text{sim}(h_u^{(1)}, h_u^{(2)}) / \tau)}{\sum_{v \in \mathcal{U}} \exp(\text{sim}(h_u^{(1)}, h_v^{(2)}) / \tau)}$
最终的总损失由推荐任务损失（Cross-Entropy）和对比学习损失加权求和而成。

3. 实验结果与深度分析 (Experiments)

3.1 核心性能对比 (Main Results)

实验在 Toys, Instrument, CDs_and_Vinyl 三个亚马逊数据集上进行。
在这里插入图片描述

主要对比结果如下表所示（Recall@10）：

模型类别	模型名称	Toys	Instrument	CDs_and_Vinyl
基础模型	SASRec	0.0708	0.0517	0.0855
推理增强	ReaRec	0.0723	0.0531	0.0852
本文模型	IGR-SR	0.0802	0.0562	0.0921
提升幅度	vs. Best Baseline	+10.9%	+5.8%	+5.4%

分析：

推理有效：ReaRec 和 LARES 等推理增强方法普遍优于基础的 SASRec，证明了“Think-before-action”范式的有效性。
引导更关键：IGR-SR 显著超越了 ReaRec，说明仅仅引入推理步骤是不够的，必须要有高层的意图作为锚点，才能发挥推理的最大潜力。

3.2 鲁棒性分析：对抗噪声 (Noise Robustness)

作者通过随机替换 20% 的历史交互来模拟真实场景中的“误触”或噪声行为。结果极具说服力：

在这里插入图片描述

SASRec 性能下降了 18.6% (Toys 数据集)。
ReaRec 性能下降了 16.2%，说明未受引导的推理依然对噪声敏感。
IGR-SR 性能仅下降了 10.4%。

这证明了 IGR-SR 提取的意图具有很强的稳定性，能够帮助模型识别并忽略序列中的虚假动作（Spurious Actions）。

3.3 参数敏感性分析 (Hyperparameter Sensitivity)

作者还研究了 LID 中 Prefix Tokens ( $k$ ) 和 <intent> Tokens ( $m$ ) 数量对性能的影响（如下图）：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Prefix Tokens ( $k$ )：当 $k$ 从 2 增加到 12 时，性能稳步提升。这说明更多的 Prefix 能提供更丰富的上下文指令，帮助冻结的编码器更好地理解任务。但超过 12 后性能趋于饱和。
Intent Tokens ( $m$ )：增加 <intent> token 的数量（从 1 到 3）能捕捉更多样化的意图，但过多的意图槽位（如 5 个）可能引入冗余噪声。