论文《Causal Inference for Recommender Systems》阅读_introduction to the special issue on causal infere-优快云博客

本文链接：https://blog.youkuaiyun.com/xingzhe123456789000/article/details/139361143

论文《Causal Inference for Recommender Systems》阅读

论文概况
论文动机（Introduction）
Methodology
总结

论文概况

今天给大家带来的是发表在推荐系统顶会 RecSys 2020 上的文章《Causal Inference for Recommender Systems》，文章聚焦推荐系统中曝光（exposure）和评分（rating）之间的偏差问题，通过因果推断，完成了模型 Deconfounded Recommder 。

论文动机（Introduction）

在 Intro 部分，作者着重强调了当前主流推荐系统的不合理的地方，即
推荐系统推荐的核心是：用户看了电影以后会如何评分？ 但这实际上是不经济不合理的，因为实际上应该给用户推荐的是用户没看过但是想去看的物品。

作者形象地将这一问题比喻为临床试验，相当于随机地给患者（用户）进行诊断（电影的曝光），然后要求患者对诊断给出反应（评分）。

这一现象的核心在于，一般用户看电影是有目的去看的，那么根据用户看过的电影的评分去判断用户喜好这一行为本身就是存在bias的。驱使用户去看某一点用的出发点，可能是电影导演，可能是电影类型，更多情况下，可能是没法儿测量的。

针对上述问题，作者提出了 deconfounded recommender模型，基于矩阵分解模型去除 unobserved confounder 。作者首先将作者对物品的交互分成两步：（1）曝光 exposure；（2）评分 rating。
由于用户只能对看过的电影进行打分，即评分这一行为是有偏的，这一行为将 exposure 和 rating 耦合在一起。后续的操作也是根据这两个步骤具体进行操作的。

Methodology

Preliminaries

作者使用 $a_{ui}$ 作者是否用户对物品进行了评分， $y_{ui}(1)$ 用于表示用户 $u$ 在看过电影 $i$ 的情况下给出的评分（ $y_{ui}(1) \neq 0$ 当且仅当用户看过之后且进行了评分）。 $y_{ui}(0)$ 表示用户 $u$ 没看过电影 $i$ （一般情况下， $y_{ui}(0) = 0$ ）。

作者将数据集分成两部分：
（一）曝光数据集（binary，非0即1），具体形式表现为： $\{a_{ui}, u = 1, 2, \cdots, U, i=1, 2, \cdots, I\}$ 用于表示用户是否看过电影。
（二）评分数据集，具体为 $\{y_{ui} \ for (u, i)\ \mathrm{such\ that \ a_{ui} = 1 } \}$

推荐系统预测目标应该为针对 $a_{ui} = 0$ 的 $(u, i)$ ，预测 $y_{ui}(1)$ 并推荐影片。即给未交互用户物品对预测评分。

针对上述目标，给出对应的矩阵分解模型如下：
$y_{ui}(a) = \boldsymbol{\theta}_u^\top \boldsymbol{\beta}_i \cdot a + \epsilon_{ui}, \qquad \epsilon_{ui} ~ \mathcal{N}(0, \sigma^2), \tag{1}$