论文阅读笔记:Item-based collaborative filtering recommendation algorithms

ItemCF推荐算法
本文探讨了基于物品的协同过滤推荐算法(Item-based Collaborative Filtering),对比了其与基于用户的方法在大规模数据集上的优势,特别是在提高推荐质量和处理稀疏数据方面。通过分析物品间的相似性,该方法能更有效地为用户生成个性化推荐。

Item-based collaborative filtering recommendation algorithms

ACM 2001 Article, 2001
在这里插入图片描述
在这里插入图片描述

研究现状

  • 基于用户(k近邻)的协同过滤推荐系统,正取得广泛的成功[19,27,14,16]。

UserCF存在挑战

  1. scalarity: improve the scalability of the collaborative filtering algorithms(提高可扩展性)
  2. sparity: improve the quality of recommendations for users(提高推荐质量)
  • 信息量的增长和用户数量的增长会大大增加传统协同过滤系统的计算量,需要新的推荐技术为数百万用户和物品在短时间内提供高质量的推荐,同时提高面对稀疏性数据的覆盖率。

研究思路

  • 传统CF算法的瓶颈在于为百万用户搜索可能的邻居[12],基于物品的算法通过首先探索物品而不是用户间的关系避免了这个瓶颈。
  • 为用户推荐用户喜欢的物品相似的物品。由于物品之间的关系相对固定,相比基于用户的算法在提供相同质量的推荐时需要更少的在线计算。

相关工作

  • CF-based[10,19,16,27,14,20]
  • Bayesian network[6]
  • clustering[2,6,29]
  • graph-based[1]
  • rule-based[25]
  • sparity[23,11,4,24]

  • 探索了基于物品的协同过滤算法。基于物品的协同过滤算法首先分析user-item矩阵来确定不同items之间的关系(相似度),然后利用物品之间的关系间接为用户计算推荐物品。

研究步骤

1.计算物品相似度

分析了不同的基于物品的推荐生成算法。计算物品相似度的不同方法;从物品相似度获得推荐的不同方法。

  1. cosine similarity
    在这里插入图片描述
  2. pearson correlation-based similarity
    在这里插入图片描述
  3. adjusted cosine similarity
    在这里插入图片描述

2.计算用户u对物品i的评分

  • 加权求和
    在这里插入图片描述

分母为所有和物品 i i i存在相似度 s ( i , j ) s(i,j) s(i,j)的物品数量,分子为用户 u u u对物品 j j j的评分和物品相似度 s ( i , j ) s(i,j) s(i,j)的加权求和。

  • 基于线性回归
    在这里插入图片描述
    评估实验结果,并和基本的k近邻方法进行了比较。

实验

  • 数据集:最小的movielens数据集(超过43000用户对3500+电影的100000评分数据)
  • 评估指标:MAE

实验步骤

  1. 划分训练集和测试集,在训练集上10折交叉验证寻找超参数
  2. 将user-based CF作为benchmark

实验结果

  1. 物品相似度
    在这里插入图片描述
  2. 训练集/测试集:0.8
  3. K:30
    在这里插入图片描述
  4. Item-based vs. User-based CF
    在这里插入图片描述
    (1)在稀疏数据集上Item-based优于user-based CF
    (2)regression-based在特别稀疏的数据集上表现更好,随着数据的增多性能会下降(过拟合?)
  5. item-based CF不同k的影响
    在这里插入图片描述
    the high accuracy that can be achieved using only a fraction of items.
  6. 不同model size和train/test ratio的run-time( time required to generate
    predictions for the entire test set )和through-put(predictions generated per second)
    在这里插入图片描述

结论

item-based techniques hold the promise of allowing CF-based algorithms to scale to large data sets and at the same time produce high-quality recommendations.
基于物品的算法比基于用户的算法有更好的性能,同时提供了比基于用户的最佳算法更好的质量。

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值