「论文笔记」Next-item Recommendations in Short Sessions-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43931451/article/details/122143003

本文探讨了针对现实世界中大量存在的短对话场景，提出INSERT模型解决SBRSs的局限。该模型结合了单会话和多会话信息，通过LocalModule、GlobalModule和PredictionModule优化next-item预测。特别强调了如何有效利用相似会话和先验知识，以克服短会话上下文信息不足的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

session-based recommender systems(SBRSs)

目的：模拟用户对下一item的动态偏好
存在的问题：目前的SBRSs的大多数研究，仅基于长会话做推荐，忽略了短对话

短对话：不超多5个items
长对话：超过5个items

实际上，现实世界中的数据集中，短对话占很大的比例。现有的研究，通常在数据预处理时，将短会话过滤掉了，使得next-item prediction的挑战减少。因为短会话包含非常少的items，embedding的上下文信息很有限。

SBRSs的分类

single-session based SBRSs
仅基于当前会话
=> GAP1: 可用的信息很非常有限，难以充分理解用户的偏好
multi-session based SBRSs
- 联合用户的历史会话
  GAP2: 忽略了与当前用户相似的其他用户的丰富信息
- 将来自其他用户的与当前会话相似的会话合并到当前会话的next-item prediction中
  - Step1: 使用固定长度的one-hot向量或包含items的embeddings的均值向量表示当前会话
  - Step2: 使用当前会话的表示作为key，从整个数据集中检索与当前会话相似的几个会话，作为预测当前会话next-items的参考
    => 由于过于简化会话表示以及key中有限的信息，经常会得到一些不相关会话
    GAP3: 如何高效的找出那些真的与当前会话相关和有效的历史会话并将它们合并到当前短会话中用于next-item 预测

IN ter- SE ssion collavorative R ecommender neT work(INSERT)包含3个modules：
(1) local module – 从当前短会话中推断用户的偏好
(2) global module – 从其他会话中学习有用的先验知识，包括当前用户和其他用户的历史会话，设计了一个similar session retrieval network(SSRN)
(3) prediction module – 首先根据从global module中学习到的先验知识对local module中推断的偏好进行调整和优化，然后基于最佳偏好预测next-item

问题定义

$\lbrace u_1, ..., u_n\rbrace$ – 表示数据集中的所有 $n$ 个用户的集合
$\lbrace v_1, ..., v_m\rbrace$ – 表示数据集中的所有 $m$ 个items的集合
$S_u = \lbrace s_1^u, ..., s_{|S_u|}^u\rbrace$ – 每个用户 $u\in U$ 的会话序列，按照发生的时间排序
$u$ 的第 $l$ 个会话 $s_l^u \in S_u$ 由items序列组成， $s_l^u = \lbrace v_i^{u, l}, ..., v_{|S_l^u|}^{u, l}\rbrace$ ，按照发生时间排序

对于在当前用户 $u_c$ 的当前会话 $s_l^{u_c}$ 中预测的目标项 $v_t^{u_c, l}$

在当前会话 $s_l^{u_c}$ 中出现在 $v_t^{u_c, l}$ 之前的所有项组成了会话期间的上下文 $C_{i a} = \lbrace v_1^{u_c, l}, ..., v_{t-1}^{u_c, l}\rbrace$

给定 $C_{ia}$ ，SBRS旨在预测 $s_l^{u_c}$ 中的 $v_t^{u_c, l}$

训练了一个概率性分类器对每个候选项 $\in V$ 预测条件概率 $p(v|\lbrace C_{ia}, S\rbrace)$ ，S包含了训练集中的所有历史会话，最终选择top-K个条件概率形成推荐列表

INTER-SESSION COLLABORATIVE RECOMMENDER NETWORK

关键的思想：利用从其他会话学习到的有用的先验知识，可以有效地约束当前短会话中给定的有限项的用户偏好表示的假设空间

三个modules：
（1）local module – 根据 $C_{ia}$ 推断得到的用户偏好表示 $h_c$
$p(v|C_{ia})=softmax(MLP(h_c))$
（2）global module – 基于S学习的先验知识的d维向量表示 $\beta(S)$
基于特征调制函数 $\psi$ 使用先验知识 $\beta(S)$ 对 $h_c$ 进行调整和优化
$\psi(h_c, S) = h_c + \beta(S)$
重写条件概率函数
$p(v|C_{ia}, S)=softmax(MLP(\psi(h_c, S)))$
（3）prediction module

1. Local Module
Step1: 将 $C{ia}$ 中的每个item $v_i$ embed为d维向量表示 $x_i$
Step2: 将 $x_i$ 输入到基于GRU的RNN中
$h_i = GRU(x_i, h_{i-1})$
第一个隐层状态 $h_0$ 使用零向量进行初始化

对于 $C{ia}$ 的每个item，我们将对应的GRU输出 $h_i$ 看作在 $i$ 处的用户偏好的embedding「因为GRUs可以自然的从 $v_i$ 和会话中在 $v_i$ 之前的items中提取的有用特征」「此外，由于循环模型是基于RNN的，所以当有新的items出现，the local
module可以生成用户偏好embeddings，并且保留了会话中的序列模式」

在本论文中，使用在 $C_{ia}|$ 最近的用户偏好embedding作为用户的当前偏好，用于在 $s_l^{u_c}$ 中进行next-item预测
$h_c = h_{|C_{ia}|}$

2. Global Module

Current User‘s Prior Knowledge Learning Module(CUPKL)
Other Users’ Prior Knowledge Learning Module(OUPKL)

目的：分别从当前用户的历史会话 $\mathbb{H}(u_c)$ 和与当前会话有相似用户偏好的其他用户会话 $\mathbb{S}(u_c)$ 中学习到先验知识，分别为 $\beta(\mathbb{H}(u_c))$ 和 $\beta(\mathbb{S}(u_c))$

在CUPKL和OUPKL中都包含了一个SSRN(similar session retrieval network)用于计算会话之间的相似度还有一个Session Encoder用于对候选相似会话中的用户偏好进行编码

2.1 Forming Candidate Similar Session Sets
问题：从整个数据集中检索相似的会话将产生不相关的会话以及很高的计算壁垒
解决：使用两个相似候选集用于模型检索：一个是 $s_l^{u_c}$ 之前的 $u_c$ 会话的会话集：
$\mathbb{H}(u_c) = \lbrace s_1^{u_c}, ..., s_{l-1}^{u_c}\rbrace$
另外一个是几个与当前用户有着相似偏好的用户的会话集

我们首先选择与 $u_c$ 最相似的用户作为与 $u_c$ 交互的大多数相同items交互的用户。在数学上，我们计算每个用户 $u_\tau$ 和 $u_c$ 之间的相似度：
$sim_u(u_{\tau}, u_c) = \frac{|\Omega_\tau \cap \Omega_c|}{|\Omega_\tau| \times |\Omega_c|}$
其中 $u_{\tau} \in U$ ， $\tau \neq c$ ， $\Omega_\tau$ 是与 $u_\tau$ 交互的items集
这样就形成了在训练集中与 $u_c$ 最相似的N个用户的候选相似集 $\mathbb{S}(u_c)$
因此，由先验知识调整和优化后的用户偏好方程可改写为：
$\psi(h_c, \mathbb{H}(u_c), \mathbb{S}(u_c)) = h_c + \beta(\mathbb{H}(u_c)) + \beta(\mathbb{S}(u_c))$
其中， $\mathbb{H}(u_c)$ 和 $\mathbb{S}(u_c)$ 分别表示 $u_c$ 和他的相似用户的会话集

2.2 Similar Sessions Retrieval Network(SSRN)
为了找到和当前绘画相似的会话：
现有的研究：

使用固定长度的向量对会话进行编码
基于这些会话的向量表示计算这些会话的相似度

存在的问题：得到的会话之间的相似度可能不准确，因为会话encoder难以保留所有的会话信息
例如，现有的研究常常使用基于注意力的加权和或简单地使用item embeddings的均值来表示会话。忽略了item的位置和顺序

解决：直接使用由每个会话得到的item embeddings计算它们之间的最短距离，来衡量两个会话之间的相似度

previous work：使用Session Encoder编码后的向量表示计算相似度
This work：直接对item embedding之后的结果求最短距离来衡量两个会话之间的相似度

区别如下图所示：
在这里插入图片描述

给定了 $\mathbb{H}(u_c)$ 或者 $\mathbb{S}(u_c)$ 中的候选会话：

将每个item $v_i \in cs$ 嵌入为一个d维embedding $x_i$
将它们依次送到RNN层，输出为 $h_1, h_2, ... h_t$ 包含了对应item和它的前置items的信息
对于每个 $h_i$ ，计算它们与 $h_c$ 的相似度 $\lambda_{i,c}$ :
$\lambda_{i,c} = h_i \cdot h_c^T$
其中， $\in[1, t]$ 是cs中的item位置
$c s$ 和 $C_{ia}$ 的相似度：取 $c s$ 中所有items和 $C{ia}$ 之间的最大相似度，将其看作 $h_c$ 与候选相似会话 $c s$ 之间的最短距离:
$C_{ia}) = \max \limits_{i \in [1,t]} \lambda {i, c}$

2.3 Session Encoder
一旦此候选会话 $c s$ 与 $h_c$ 相似，它的用户偏好就会作为当前会话的补充

在本论文中，使用基于注意力的session encoder来表示 $c s$ 中的用户偏好：

对 $c s$ 的用户 $u_{cs}$ 嵌入为d维的用户偏好embedding $\theta_{cs}$
计算它对 $c s$ 中的item $v_i$ 的偏好：
$\alpha(v_i, u_{cs}) = \frac{1}{\eta}x_i \cdot \theta_{cs}^T$
其中， $\eta = \sum_{j=1}^t x_j \cdot \theta_{u_{cs}}^T$ 是归一化因子
$c s$ 的用户偏好计算为：
$w_{cs} = \sum\limits_{i=1}^t\alpha(v_i, u_{cs} \times x_i)$

当 $\mathbb{H}(u_c)$ 和 $\mathbb{S}(u_c)$ 中的每个会话的会话相似度和用户偏好都准备好后，分别使用它们与 $C{ia}$ 的相似度作为权重来聚合楼昂贵后续安吉中所有会话的用户偏好，计算先验知识的表示：
$\beta(\mathbb{H}(u_c)) = MLP_h(\sum\limits_{cs\in\mathbb{H}(u_c)} sim(cs, C_{ia}) \times w_{cs})$
$\beta(\mathbb{S}(u_c)) = MLP_h(\sum\limits_{cs\in\mathbb{S}(u_c)} sim(cs, C_{ia}) \times w_{cs})$

3. Prediction Module
预测函数：
$C_{ia}, \mathbb{H}(u_c), \mathbb{S}(u_c)) = softmax(MLP(\psi(h_c, \mathbb{H}(u_c), \mathbb{S}(u_c))))$

4. Optimization and Training
使用user-aware mini-batch梯度下降框架训练提出的模型：
对于每个mini-batch，我们在数据集中选择一批由不同用户生成的会话。对于batch中的每个用户 $u_c$ 生成用于训练的候选相似会话集， $\mathbb{H}(u_c)$ 和 $\mathbb{S}(u_c)$
将预测任务看作多类分类任务，并使用交叉熵损失来训练模型：
$\mathcal{L}(v^+) = -[logp(v^+) + \sum\limits_{v_i \in V, v_i \neq v^+} log(1-p(v_i))]$
其中， $v^+$ 是当前会话中真正的next-item，而 $p (v)$ 是 $C_{ia}, \mathbb{H}(u_c), \mathbb{S}(u_c))$ 的缩写