相似度度量2：皮尔森相关系数和斯皮尔曼相关性

最新推荐文章于 2025-05-21 20:18:22 发布

samoyan

最新推荐文章于 2025-05-21 20:18:22 发布

阅读量9.9k

点赞数 3

文章标签：数据分析相似度度量

1）皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。

皮尔森相关系数反应了两个变量之间的线性相关程度，它的取值在[-1, 1]之间。当两个变量的线性关系增强时，相关系数趋于1或-1；当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。

基于皮尔森相关系数的相似度有两个缺点：
(1) 没有考虑（take into account）用户间重叠的评分项数量对相似度的影响；
(2) 如果两个用户之间只有一个共同的评分项，相似度也不能被计算

2）斯皮尔曼相关性

可以理解为是排列后（Rank）用户喜好值之间的Pearson相关度。《Mahout in Action》中有这样的解释：假设对于每个用户，我们找到他最不喜欢的物品，重写他的评分值为“1”；然后找到下一个最不喜欢的物品，重写评分值为“2”，以此类推。然后我们对这些转换后的值求Pearson相关系数，这就是Spearman相关系数。

斯皮尔曼相关度的计算舍弃了一些重要信息，即真实的评分值。但它保留了用户喜好值的本质特性——排序（ordering），它是建立在排序（或等级，Rank）的基础上计算的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。