Day11-协同过滤算法

最新推荐文章于 2024-08-17 23:49:49 发布

原创

最新推荐文章于 2024-08-17 23:49:49 发布 · 2.7k 阅读

·

63

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

协同过滤算法

搭建智能推荐系统的算法有很多，其中商业实战中用的较多的为协同过滤(collaborative filtering)。

文章目录

协同过滤算法
一、协同过滤算法的原理
二、相似度计算的常用方法
三、相似度计算的Python实现
四、相关系数在DataFrame中的应用
- - 代码演示
五、电影智能推荐系统
六、实战补充——groupby()分组妙用
- - 代码演示

一、协同过滤算法的原理

根据用户群体对产品偏好的数据，发现用户之间的相似性或者物品之间的相似性，并基于这些相似性为用户作推荐。

基于用户的协同过滤算法（User-based Collaborative Filtering）

其本质是：寻找相似的用户，进而对用户推荐相似用户关注的产品。

如下表所示，用户1和用户2都给商品A，B，C打了高分，那么可以将用户1和用户2划分在同一个用户群体，此时若用户2还给商品D打了高分，那么就可以将商品D推荐给用户1。
在这里插入图片描述

基于物品的协同过滤算法（Item-based Collaborative Filtering）

其本质是：根据用户的历史偏好信息，将类似的物品推荐给用户

如下表所示，图书A和图书B都被用户1，2，3购买过（1表示购买，0表示未购买），那么可以认为图书A和图书B具有较强的相似度，即可判断喜欢图书A的用户同样也会喜欢图书B。当用户4购买图书B时，根据图书A和图书B的相似性，可将图书A推荐给用户4。
在这里插入图片描述

在商业实战中，大多应用场景偏向于使用基于物品的协同过滤算法。主要有如下两个原因：

原因一：通常用户的数量是非常庞大的（如淘宝数亿的用户群体），而物品的数量相对有限，因此计算不同物品之间的相似度往往比计算不同用户的相似度容易很多。

原因二：用户的喜好较为多变，而物品属性较明确不随时间变化，过去用户对物品的评分长期有效，所以物品间的相似度比较固定，因此可以预先离线计算好物品间的相似度，把结果存在表中，向客户进行推荐时再使用。

二、相似度计算的常用方法

无论是基于用户还是基于物品的协同过滤算法，其本质都是寻找数据之间的相似度。本节介绍计算相似度的三种常见方法：

欧式距离

$\Large \sqrt{\sum_{i=1}^n{(X_i^{(a)}-X_i^{(b)})}^2}$

余弦相似度

使用两向量夹角θ的余弦值cosθ来表示两个向量的相似度，称为余弦相似度。余弦相似度的范围是：[-1,1]，夹角越小，余弦值越接近于1，两个向量越靠近，两者越相似。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。

在这里插入图片描述

余弦相似度公式为：
$\Large cos\theta = \frac{<a,b>}{|| a|||| b||}$
其中，<a,b>表示的是向量a和向量b的内积，||a||和||b||分别表示向量a和向量b的模（长度）。

例如，向量a=(X₁,Y₁)，向量b=(X₂,Y₂)，代入余弦相似度公式可以得到：
$cos\theta = \frac{X_1*X_2+Y_1*Y_2}{\sqrt{X_1^2+Y_1^2}*\sqrt{X_2^2+Y_2^2}}$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。