usercf代码java_基于用户的协同过滤算法(UserCF)原理以及代码实践

协同过滤算法在推荐系统中广泛应用,包括基于用户(UserCF)和物品的协同过滤。本文重点介绍了UserCF算法原理,通过计算用户之间的相似度来推荐物品。算法步骤包括计算用户相似度、建立用户相似度矩阵,然后推荐与目标用户最相似的用户喜欢的物品。文中提到了余弦相似度和IIF相似度两种计算方法,并给出了Python代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

协同过滤(collaborative filtering)是一种在推荐系统中广泛使用的技术。该技术通过分析用户或者事物之间的相似性,来预测用户可能感兴趣的内容并将此内容推荐给用户。这里的相似性可以是人口特征的相似性,也可以是历史浏览内容的相似性,还可以是个人通过一定机制给与某个事物的回应。比如,A和B是无话不谈的好朋友,并且都喜欢看电影,那么协同过滤会认为A和B的相似度很高,会将A喜欢但是B没有关注的电影推荐给B,反之亦然。

协同过滤推荐分为3种类型:

基于用户(user-based)的协同过滤(UserCF)

基于物品(item-based)的协同过滤(ItemCF算法)

基于模型(model-based)的协同过滤 (ModelCF算法)

本文主要讲述基于用户协同过滤算法的原理以及代码实现。

算法原理

UserCF算法主要是考虑用户与用户之间的相似度,给用户推荐和他兴趣相似的其他用户喜欢的物品。俗话说"物以群分,人以类聚",人们总是倾向于跟自己志同道合的人交朋友。同理,你朋友喜欢的东西你大概率也可能会喜欢,UserCF算法正是利用了这个原理。举个例子,如果要给一个用户A推荐物品,可以先找到与A最为相似的用户B,接着获取用户B最喜欢的且用户A没有听说过的物品,并预测用户A对这些物品的评分,从中选取评分最高的若干个物品推荐给用户A。

从上述描述可以知道,UserCF算法的主要步骤如下:

找到与目标用户兴趣相似的用户集合

找到这个集合中的用户最喜欢的,且目标用户还未接触过的物品推荐给目标用户

上述是UserCF算法的基本思路,方便读者形成对UserCF算法的整体印象。也许你看了上述文字依然没有思路,没关系,且继续往下看。

首先,根据算法的步骤1,我们自然而然就会提出一个问题,那就是如何度量两个用户之间的相似度?试想一下,我们在现实生活中如何判断两个人是否兴趣相似呢?比如你喜欢打LOL,恰巧你室友也喜欢,那显然你们的共同话题会比较多,因为你们有共同的兴趣爱好。我们刚好可以利用这一点来计算用户之间的相似度。

对于用户u和用户v,令N(u)代表用户u喜欢的物品合集,令N(v)代表用户v喜欢的物品合集。N(u)∩N(v)代表的是用户u和用户v都喜欢的物品,N(u)∪N(v)代表的是用户u和用户v喜欢的物品的合集,那么可以利用以下公式来简单计算相似度:

math?formula=W%5Cmu%5Cnu%20%3D%20%5Cfrac%20%7B%7CN(%5Cmu)%20%5Cbigcap%20N(%5Cnu)%7C%7D%7B%7CN(%5Cmu)%20%5Cbigcup%20N(%5Cnu)%7C%7D

上述公式叫做Jaccard公式,直观上理解就是,将用户u与用户v都喜欢的物品的数量除以他们喜欢物品的总和,如果u和v喜欢的物品是一模一样的,则u和v的相似度为1。

还有另外一种余弦相似度计算公式:

math?formula=W%5Cmu%5Cnu%20%3D%20%5Cfrac%20%7B%7CN(%5Cmu)%20%5Cbigcap%20N(%5Cnu)%7C%7D%20%7B%5Csqrt%7B%7CN(%5Cmu)%20%5C%7C%20N(%5Cnu)%7D%7C%7D

上述公式的分母部分代表的是u喜欢的物品的数量与v喜欢的物品的数量的乘积,而不再是他们之间的交集。

举个简单例子来表明如何计算用户u和v之间的相似度,假如用户u和用户v喜欢的游戏如下表:

用户

喜爱的游戏

u

{英雄联盟, 王者荣耀,绝地求生}

v

{英雄联盟,和平精英}

利用余弦相似度计算公式可以得到如下结果:

math?formula=W%5Cmu%5Cnu%20%3D%20%5Cfrac%20%7B%7C%5C%7B%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F%2C%E7%8E%8B%E8%80%85%E8%8D%A3%E8%80%80%2C%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F%5C%7D%20%5Cbigcap%20%5C%7B%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F%2C%E5%92%8C%E5%B9%B3%E7%B2%BE%E8%8B%B1%5C%7D%7C%7D%7B%5Csqrt%7B%5C%7B%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F%2C%E7%8E%8B%E8%80%85%E8%8D%A3%E8%80%80%2C%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F%5C%7D%20%7C%7C%20%5C%7B%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F%2C%20%E5%92%8C%E5%B9%B3%E7%B2%BE%E8%8B%B1%5C%7D%7D%7C%7D%20%3D%20%5Cfrac%20%7B1%7D%7B%5Csqrt%7B6%7D%7D

故,我们可以计算得到用户u和用户v之间的相似度为

math?formula=%5Cfrac%20%7B1%7D%7B%5Csqrt%7B6%7D%7D

至此,我们已经可以计算任意两个用户之间的相似度了,下一步要做的事情是建立一张用户相似度表,此表中保存了任意两个用户之间的相似度,方便后续挑选出与用户u最相似的若干个用户。

当用户相似度表建立起来了之后,UserCF算法就可以给用户推荐与他兴趣最相似的K个用户喜欢的物品了。那此时又会出现一个问题,假如我们要给用户w进行推荐,并且在用户相似度表中找到了与他最相似的K个用户,这K个用户喜欢的物品有很多,我们怎么知道要推荐哪些物品给用户w呢?此时就涉及到了用户对物品的感兴趣程度,我们当然会把用户最感兴趣的物品推荐给他。故使用以下公式来度量用户u对物品i的感兴趣程度:

math?formula=p(%5Cmu%2C%20i)%20%3D%20%5Csum_%7B%5Cnu%20%5Cin%20S(%5Cmu%2C%20K)%20%5Cbigcap%20N(i)%7D%20W%5Cmu%5Cnu%20R%5Cnu%20i

乍一看感觉很复杂,其实不然。

其中

math?formula=S(%5Cmu%2C%20K) 代表的是与用户

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值