IGR-SR: 序列推荐中的意图引导推理

论文题目:Intent-Guided Reasoning for Sequential Recommendation
作者:Yifan Shao, Peilin Zhou (香港中文大学)
发布时间:2025 (arXiv:2512.14034) https://arxiv.org/pdf/2512.14034
关键词:序列推荐、推理时计算 (Inference-time Reasoning)、意图解耦、对比学习


1. 引言:现有“推理式推荐”的困境

序列推荐(Sequential Recommendation, SR)的核心挑战在于从用户历史交互中捕捉动态变化的偏好。近年来,受到大语言模型(LLM)中 Chain-of-Thought (CoT) 的启发,研究者们开始探索“推理增强(Reasoning-enhanced)”的推荐范式(如 ReaRec, LARES)。

与直接将历史行为映射为预测结果的传统方法(如 SASRec)不同,推理增强模型试图模拟一个“深思熟虑”的过程,生成中间推理步骤。然而,作者指出这种范式存在两个核心痛点:

  1. 推理不稳定性 (Reasoning Instability)
    现有的推理过程仅由“下一个目标物品”作为监督信号。这使得推理过程对近期的交互极其敏感。例如,用户的一次误触(Accidental Click)可能导致推理路径发生剧烈偏移,从而产生错误的推荐。
  2. 表层推理 (Surface-level Reasoning)
    模型往往只是死记硬背了物品间的跳转概率(例如“买了A之后大概率买B”),而没有真正理解行为背后的内在意图(例如“用户正在探索户外活动”)。这种推理缺乏泛化能力,难以应对复杂的行为模式。

为了解决上述问题,本文提出了 IGR-SR (Intent-Guided Reasoning for Sequential Recommendation)。其核心思想是:显式提取高层的用户意图(High-level Intents),并将其作为锚点来引导每一步的推理过程


2. 模型架构详解 (Methodology)

IGR-SR 的整体架构如下图所示,包含三个核心组件:潜在意图蒸馏器 (LID)意图感知审慎推理机 (IDR) 以及 意图一致性正则化 (ICR)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1:模型首先通过冻结参数的 LID 提取意图 Token,经过 MLP 投影后,输入到 IDR 中进行双阶段推理(Cross-Attention 融合意图 + Self-Attention 序列建模),最后辅以对比学习损失。

2.1 潜在意图蒸馏器 (Latent Intent Distiller, LID)

如何在不引入巨大计算开销的前提下提取用户意图?作者借鉴了 LLM 中的 Prompt TuningSoftCoT 技术,设计了一个轻量级的蒸馏模块。

  • 输入序列构建
    为了激发预训练模型提取意图的能力,作者在原始用户序列 S u S^u Su前端添加 k k k 个可学习的 Prefix Tokens ( P P P),在末端添加 m m m<intent> Tokens ( I I I):
    S a u g u = Concat ( P , S u , I ) S_{aug}^{u} = \text{Concat}(P, S^{u}, I) Saugu=Concat(P,Su,I)
    其中 P P P 充当任务特定的指令(Instruction),引导模型关注意图信息; I I I 则作为意图信息的聚合容器。

  • 冻结编码器 (Frozen Encoder)
    S a u g u S_{aug}^{u} Saugu 输入到一个预训练好且参数冻结的 SASRec 编码器中。
    H 1 = LID ( S a u g u ) H_1 = \text{LID}(S_{aug}^{u}) H1=LID(Saugu)
    关键点:在训练过程中,梯度的反向传播只更新 P P P I I I 的 Embedding,编码器参数保持不变。这使得 LID 模块极其高效。

  • 意图提取与投影
    最终的意图表示 T I T_I TI 取自序列末尾对应 <intent> tokens 的输出状态。为了解决 LID 与主模型(IDR)之间的维度和语义空间差异,引入了一个 MLP 投影层:
    T D = f θ ( T I ) ∈ R m × d T_D = f_{\theta}(T_I) \in \mathbb{R}^{m \times d} TD=fθ(TI)Rm×d

2.2 意图感知审慎推理机 (Intent-aware Deliberative Reasoner, IDR)

这是模型的主体,负责执行“意图引导”的推理。作者认为,简单的拼接(Concatenation)会导致位置编码污染(Positional Encoding Contamination),因此提出了一种双重注意力架构 (Dual-Attention Architecture),将推理显式解耦为两个阶段。

阶段一:意图审思 (Intent Deliberation)

在此阶段,模型利用全局意图来丰富局部物品的上下文表示。使用 Cross-Attention 机制,让序列中的每个 item 动态“检索”相关的意图信息:

  • Query ( Q Q Q): 上一层的序列表示 H ( l − 1 ) H^{(l-1)} H(l1)
  • Key ( K K K) / Value ( V V V): 投影后的意图向量 T D T_D TD

H c r o s s ( l ) = H ( l − 1 ) + CrossAttn ( Q = H ( l − 1 ) , K = T D , V = T D ) H_{cross}^{(l)} = H^{(l-1)} + \text{CrossAttn}(Q=H^{(l-1)}, K=T_D, V=T_D) Hcross(l)=H(l1)+CrossAttn(Q=H(l1),K=TD,V=TD)
通过这种方式,模型能够根据当前的上下文,有选择性地吸收最相关的全局意图,从而纠正局部的噪声偏差。

阶段二:决策制定 (Decision-Making)

在融合了意图信息后,模型回归到经典的序列建模任务。使用标准的 Masked Self-Attention 来捕捉序列内部的时间依赖性:
H s e l f ( l ) = H c r o s s ( l ) + MaskedSelfAttn ( H c r o s s ( l ) ) H_{self}^{(l)} = H_{cross}^{(l)} + \text{MaskedSelfAttn}(H_{cross}^{(l)}) Hself(l)=Hcross(l)+MaskedSelfAttn(Hcross(l))
最终输出经过前馈网络(FFN)和层归一化(LayerNorm)得到。

2.3 意图一致性正则化 (Intent Consistency Regularization, ICR)

为了增强模型对意图引导的鲁棒性,防止模型“过度依赖”某一个特定的意图维度(可能会导致过拟合),作者引入了基于对比学习的正则化目标。

  • 掩码意图增强 (Masked Intent Augmentation)
    对投影后的意图向量 T D T_D TD 进行两次独立的随机 Mask(Dropout),生成两个视图 T D ( 1 ) T_D^{(1)} TD(1) T D ( 2 ) T_D^{(2)} TD(2)
    T D ( 1 ) = T D ⊙ M ( 1 ) , T D ( 2 ) = T D ⊙ M ( 2 ) T_D^{(1)} = T_D \odot M^{(1)}, \quad T_D^{(2)} = T_D \odot M^{(2)} TD(1)=TDM(1),TD(2)=TDM(2)
    其中 M M M 是服从伯努利分布的掩码矩阵。

  • 对比损失 (InfoNCE Loss)
    将这两个视图分别输入 IDR,得到两个用户表示 h u ( 1 ) h_u^{(1)} hu(1) h u ( 2 ) h_u^{(2)} hu(2)。目标是最大化同一用户在不同掩码视图下的一致性:
    L IntentCL = − log ⁡ exp ⁡ ( sim ( h u ( 1 ) , h u ( 2 ) ) / τ ) ∑ v ∈ U exp ⁡ ( sim ( h u ( 1 ) , h v ( 2 ) ) / τ ) \mathcal{L}_{\text{IntentCL}} = -\log \frac{\exp(\text{sim}(h_u^{(1)}, h_u^{(2)}) / \tau)}{\sum_{v \in \mathcal{U}} \exp(\text{sim}(h_u^{(1)}, h_v^{(2)}) / \tau)} LIntentCL=logvUexp(sim(hu(1),hv(2))/τ)exp(sim(hu(1),hu(2))/τ)
    最终的总损失由推荐任务损失(Cross-Entropy)和对比学习损失加权求和而成。


3. 实验结果与深度分析 (Experiments)

3.1 核心性能对比 (Main Results)

实验在 Toys, Instrument, CDs_and_Vinyl 三个亚马逊数据集上进行。
在这里插入图片描述

主要对比结果如下表所示(Recall@10):

模型类别模型名称ToysInstrumentCDs_and_Vinyl
基础模型SASRec0.07080.05170.0855
推理增强ReaRec0.07230.05310.0852
本文模型IGR-SR0.08020.05620.0921
提升幅度vs. Best Baseline+10.9%+5.8%+5.4%

分析

  1. 推理有效:ReaRec 和 LARES 等推理增强方法普遍优于基础的 SASRec,证明了“Think-before-action”范式的有效性。
  2. 引导更关键:IGR-SR 显著超越了 ReaRec,说明仅仅引入推理步骤是不够的,必须要有高层的意图作为锚点,才能发挥推理的最大潜力。

3.2 鲁棒性分析:对抗噪声 (Noise Robustness)

作者通过随机替换 20% 的历史交互来模拟真实场景中的“误触”或噪声行为。结果极具说服力:

在这里插入图片描述

  • SASRec 性能下降了 18.6% (Toys 数据集)。
  • ReaRec 性能下降了 16.2%,说明未受引导的推理依然对噪声敏感。
  • IGR-SR 性能仅下降了 10.4%

这证明了 IGR-SR 提取的意图具有很强的稳定性,能够帮助模型识别并忽略序列中的虚假动作(Spurious Actions)。

3.3 参数敏感性分析 (Hyperparameter Sensitivity)

作者还研究了 LID 中 Prefix Tokens ( k k k) 和 <intent> Tokens ( m m m) 数量对性能的影响(如下图):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • Prefix Tokens ( k k k):当 k k k 从 2 增加到 12 时,性能稳步提升。这说明更多的 Prefix 能提供更丰富的上下文指令,帮助冻结的编码器更好地理解任务。但超过 12 后性能趋于饱和。
  • Intent Tokens ( m m m):增加 <intent> token 的数量(从 1 到 3)能捕捉更多样化的意图,但过多的意图槽位(如 5 个)可能引入冗余噪声。

4. 总结与展望 (Conclusion)

IGR-SR 提出了一种全新的“意图引导推理”范式,直击当前推理式推荐系统“不稳定性”和“表层化”的痛点。

核心创新点回顾

  1. LID (蒸馏):利用 Prompt Tuning 思想,低成本地从冻结模型中“榨取”用户意图。
  2. IDR (双重注意力):巧妙地利用 Cross-Attention 将意图作为 Query 检索对象,实现了全局意图与局部序列的动态融合。
  3. ICR (正则化):利用对比学习确保意图表示的鲁棒性,防止过拟合。

该工作不仅在性能上刷新了 SOTA,更重要的是为序列推荐提供了一种增强鲁棒性的新思路——在推理之前,先明确意图

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值