搜广推论文阅读：冷启动POSO_poso快手-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_21949357/article/details/145840967

搜广推论文阅读：冷启动POSO

今天来分享一篇快手的关于冷启动的论文笔记：[2108.04690] POSO: Personalized Cold Start Modules for Large-scale Recommender Systems。作者水哥也在知乎上发表过非常详实的细节推荐系统难题挑战（7）：POSO，从模型角度解决用户冷启动问题 - 知乎，观看后收获很多。

背景与出发点

冷启动一直是推荐系统中的难点，一方面，新用户刚刚进入推荐系统，行为稀少，数据积累很少；同时，新用户的行为模式和老用户的行为模式有比较大的差距，比如在快手场景，作者分析发现新用户的观看时间小于老用户，但是点喜欢的概率却高于老用户。

除上述两点外，本文还提出了冷启动困难的另一重原因，即新用户和老用户数据量的不平衡性，新用户稀少的数据量导致了模型很难有动力去拟合新用户的分布。
作者对此做了实验，发现使用is-new-user训练模型时，模型屏蔽该特征后对输出影响很小，而去屏蔽其它在新老用户上分布均匀的特征则恰恰相反。通俗点讲，因为新用户量太少了，模型懒得去focus这部分数据。

实现方法

理论形式

理想情况下，我们可以针对每个用户都学习一个模型，这样对于冷启动的新用户，其个人化的模型也可以很好学习其行为规律，但是由于推荐系统庞大的用户数量，这一设想是不现实的。
沿着这一思路，可以对用户进行分组，学习不同用户群体的特点。单个用户可以视作不同用户分组结果的加权叠加。而具体叠加的权重可以交给模型学习，这一形式可以表示为：

$$\hat{x}=C\sum_i g_i(x^{pc})f_i(x)$$

其中 $x$ 是某层特征输入，而 $\hat{x}$ 是该层特征输出， $x^{pc}$ 代表用于分化网络的个性化特征，例如如果是针对新老用户的话，该特征就是衡量是否新老用户的。
假设网络有3个模块，对新用户输出的权重是2、1、0，老用户输出权重是0、1、2。我们就可以说第一个模型预测新用户、第三个模块预测老用户，而第二个模块一半一半。
注意，这里实际上还是一个理想下的概念，在具体精排过程中，我们哪怕构建两个一样模块对原有模型也是存在压力的，因此还要进一步简化。

POSO简化

由于原有模型结构的不同，POSO在不同的深度网络中会演变成不同的简化形式。原文中给出了三种最常见网络的POSO形式，分别是MLP、MHA和MMoe。
具体推导过程参考论文以及链接https://zhuanlan.zhihu.com/p/472726462，这里给出3种POSO的形式。
MLP

一个有趣的点是，这里推导出来，MLP的POSO形式实际上和PPNet是相同的，但是后者的出发点完全不同，是从特征重要性和加权角度来考虑的。
如何看待这一点，可以从以下3个方面来考虑：

POSO并不等同于PPNet，因为指导思想不同，同时POSO也存在不局限于MLP的其它形式。
虽然实现雷同，但是Motivation决定了具体使用的方式。例如POSO由于出发点是对用户分别建模，主导思想是利用特征分化网络，因此在 $x^{pc}$ 的选择上和PPNet是不同的。这一点在细节部分会继续展开。
不同思想导向相似的解决路径是正常的，核心还是是否有用，是否可以解决Motivation提出的问题。

MHA

这里作者根据是否已经高度个性化来让特征进行不同程度的分化：