概述
最近因工作需要调研一下对大规模数据如何进行有效用户聚类,发现google之前论文做过相关事情。
该文从工程实现角度介绍了一种通用的在线推荐架构,可以适用于大规模数据和实时推荐。该文提到模型通过三种方式进行推荐1)MinHash 聚类2)PLSI 3)共现
问题
问题:根据用户对页面的点击历史进行个性化推荐。
和Netfix电影推荐的主要不同是
1)用户点击行为噪声比较多
2)没有负样本数据,点击数据只会告诉用户偏好,用户不喜欢的兴趣不清楚。
模型
通过以下模型对问题进行建模,基于Item_based CF模型
rua,sk≈∑ci: