一、基本信息
论文题目:《Probabilistic Matrix Factorization》
发表时间:NIPS 2007
论文作者及单位:
论文地址:https://dl.acm.org/citation.cfm?id=2981720
二、摘要
许多现有的协作过滤方法既不能处理非常大的数据集,也不能轻松处理评级很少的用户。在本文中,我们提出了概率矩阵分解(PMF)模型,它与观测的数量成线性关系,更重要的是,它在大型、稀疏和非常不平衡的NetFlix数据集上表现良好。我们进一步扩展了PMF模型,在模型参数上加入一个自适应先验,并展示了如何自动控制模型容量。最后,我们介绍了一个受约束的PMF模型版本,该模型基于这样一个假设:对类似电影集进行评级的用户可能有类似的偏好。由此得到的模型对于评级很少的用户能够更好地概括。当多个PMF模型的预测与受限Boltzmann机器模型的预测进行线性组合时,我们得到的误差率为0.8861,比NetFlix自身系统的得分高出近7%。
三、主要内容与工作
1、分析了现有的协同过滤算法的不足,主要有以下几点:
- 除了基于矩阵分解的方法外,其他协同过滤方法都不能很好地扩展到大型数据集。
- 现有的大多数算法都很难对收评分记录很少的用户做出准确的预测。在协同过滤社区中,一个常见的做法是删除评分数量少于最小值的所有用户
2、本文的目标是提出一种概率算法,该算法能随观测次数线性缩放,并能很好地