前言
文章发表在2020年RecSys会议,提出了一个SSE-PT(随机共享Embedding的个性化Transformer)模型。论文将SASRec作为靶子,在各个方面(个性化、精度、收敛速度等)进行对比,展现了模型的优越性。并且,对于处理长序列时,提出了一种策略。本篇分享笔记是第二次阅读论文时写下的,很多地方提出了自己的思考与讨论。
本文约2.6k字,预计阅读10分钟。
概要
整篇论文指向了SASRec模型最大的一个问题:「非个性化」。这是作者的动机,因此提出了一个SSE-PT的个性化模型,模型主要是以Transformer模型作为主要的框架,加入了作者2019年自己提出的「Stochastic Shared Embeddings」正则化技术,组成了整个模型。其中,我认为本文还有两个关键的点是:
如何使模型具有个性化?
如何去处理长序列的情况?
文章在方法和实验中,证明了SSE-PT模型的有效性,以及个性化的体现。
模型
作者提出的SSE-PT模型受两部分内容启发:
Transformer模型;
一个新的正则化技术stochastic shared embeddings(SSE,随机分享embedding),与论文是同一作者;
接下来对于序列推荐的定义、SSE-PT模型结构、SSE和SSE-PT++进行解释与讨论。
序列推荐
对于 个用户,每个用户都包含一个历史浏览物品子集。假设 个用户的物品历史序列为:
其中序列 包含用户 的最近 个历史物品。
序列推荐的目标是去学习一个对所有 个物品中最重要的 个物品的个性化排序。
SSE-PT结构
以下是整个模型的整体结构,如下所示:

Embedding Layer
首先定义用户、物品的Embedding映射矩阵 ,其中 分别表示用户、物品的embedding维度。
其次定义一个「可学习」的位置编码(positional encoding)表,