论文阅读笔记：Item-based collaborative filtering recommendation algorithms

ItemCF推荐算法

最新推荐文章于 2024-12-25 16:56:54 发布

原创最新推荐文章于 2024-12-25 16:56:54 发布 · 1.9k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#推荐系统 #基于物品 #协同过滤 #论文笔记

推荐系统专栏收录该内容

5 篇文章

订阅专栏

本文探讨了基于物品的协同过滤推荐算法(Item-based Collaborative Filtering)，对比了其与基于用户的方法在大规模数据集上的优势，特别是在提高推荐质量和处理稀疏数据方面。通过分析物品间的相似性，该方法能更有效地为用户生成个性化推荐。

文章目录

Item-based collaborative filtering recommendation algorithms

ACM 2001 Article, 2001

研究现状

基于用户（k近邻）的协同过滤推荐系统，正取得广泛的成功[19,27,14,16]。

UserCF存在挑战

scalarity: improve the scalability of the collaborative filtering algorithms（提高可扩展性）
sparity: improve the quality of recommendations for users（提高推荐质量）

信息量的增长和用户数量的增长会大大增加传统协同过滤系统的计算量，需要新的推荐技术为数百万用户和物品在短时间内提供高质量的推荐，同时提高面对稀疏性数据的覆盖率。

研究思路

传统CF算法的瓶颈在于为百万用户搜索可能的邻居[12]，基于物品的算法通过首先探索物品而不是用户间的关系避免了这个瓶颈。
为用户推荐用户喜欢的物品相似的物品。由于物品之间的关系相对固定，相比基于用户的算法在提供相同质量的推荐时需要更少的在线计算。

研究步骤

1.计算物品相似度

分析了不同的基于物品的推荐生成算法。计算物品相似度的不同方法；从物品相似度获得推荐的不同方法。

cosine similarity
pearson correlation-based similarity
adjusted cosine similarity

2.计算用户u对物品i的评分

加权求和

分母为所有和物品 $i$ 存在相似度 $s (i, j)$ 的物品数量，分子为用户 $u$ 对物品 $j$ 的评分和物品相似度 $s (i, j)$ 的加权求和。

基于线性回归

评估实验结果，并和基本的k近邻方法进行了比较。

实验

数据集：最小的movielens数据集（超过43000用户对3500+电影的100000评分数据）
评估指标：MAE

实验步骤

划分训练集和测试集，在训练集上10折交叉验证寻找超参数
将user-based CF作为benchmark

实验结果

物品相似度
训练集/测试集：0.8
K：30
Item-based vs. User-based CF

（1）在稀疏数据集上Item-based优于user-based CF
（2）regression-based在特别稀疏的数据集上表现更好，随着数据的增多性能会下降（过拟合？）
item-based CF不同k的影响

the high accuracy that can be achieved using only a fraction of items.
不同model size和train/test ratio的run-time（ time required to generate
predictions for the entire test set ）和through-put（predictions generated per second）

结论

item-based techniques hold the promise of allowing CF-based algorithms to scale to large data sets and at the same time produce high-quality recommendations.
基于物品的算法比基于用户的算法有更好的性能，同时提供了比基于用户的最佳算法更好的质量。