Google News Personalization：Scalable Online Collaborative Filtering

谷歌新闻个性化：大规模在线协同过滤

最新推荐文章于 2019-12-28 15:15:40 发布

原创

最新推荐文章于 2019-12-28 15:15:40 发布 · 877 阅读

0 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#推荐系统

这篇论文探讨了谷歌新闻推荐系统的设计，面对大量用户和新闻数据的挑战，提出了利用MapReduce、Bigtable等技术优化算法，以及结合内存和模型算法的混合模型。文章详细介绍了MinHash、PLSI模型及其分布式EM算法的训练，旨在实现实时更新和高效推荐，以应对新闻的快速变化和用户兴趣的个性化需求。

Abstract

这篇论文介绍了google news推荐系统的实现。在用户量很大的前提下，原有的推荐算法适用性较差，需要对其进行改进，例如使用mapreduce，bigtable等技术提高运算速度，综合考虑多种推荐算法等等。

google news的特点

处理google news的一些难点

scalability:google news访客较多，新闻数据也较多
item churn:物品(新闻)会动态变化，模型需要不断重建，这是一个非常费时的任务，对于google news来说，每分钟都会产生很多新闻，模型超过一段时间后效果会变差

google news的一些假设

这里假设用户点击某一条新闻即表示对该新闻感兴趣，之所以可以这样假设，因为google news前端页面已经显示了文章的摘要，用户能够了解这篇文章的大概信息，如果点击该新闻即可证明对此新闻感兴趣。

问题表述

对于N个用户，u={u1,u2,...uN}和M个物品(文章)S={s1,s2...sm}，给定一个用户的浏览记录集合Cu，{s1,s2...si|cu|}，推荐K个用户感兴趣的文章。同时要求服务器的响应时间要短，服务器要做的事情如下：对新闻聚类；针对HTTP请求返回HTML内容；推荐系统产生推荐列表

模型

本文中涉及的模型是一个混合模型，将上述两种模型进行线性加权结合。 I(u_i,s_k) is 1 if the user u_i clicked on the story s_k and 0 otherwise.话说将来可以使用SVM算法学习不同algorithm之间的比重。

MinHash

PLSI

PLSI was introduced in [3], where Hofmann developed probabilistic latent semantic models for performing collaborative filtering.The relationship between users and items is learned by modeling the joint dis