概述
最近因工作需要调研一下对大规模数据如何进行有效用户聚类,发现google之前论文做过相关事情。
该文从工程实现角度介绍了一种通用的在线推荐架构,可以适用于大规模数据和实时推荐。该文提到模型通过三种方式进行推荐1)MinHash 聚类2)PLSI 3)共现
问题
问题:根据用户对页面的点击历史进行个性化推荐。
和Netfix电影推荐的主要不同是
1)用户点击行为噪声比较多
2)没有负样本数据,点击数据只会告诉用户偏好,用户不喜欢的兴趣不清楚。
模型
通过以下模型对问题进行建模,基于Item_based CF模型
rua,sk≈∑ci:

这篇论文介绍了Google如何实现大规模在线推荐系统,重点讨论了MinHash聚类、PLSI模型和共现统计在用户个性化推荐中的应用,以及如何通过LSH优化计算效率。系统框架为实时推荐和大规模数据处理提供了架构参考。
最低0.47元/天 解锁文章
294

被折叠的 条评论
为什么被折叠?



