20、推荐系统全解析:从基础到实践

推荐系统全解析:从基础到实践

1. 用户偏好相似度估计方法

在推荐系统中,准确估计用户偏好的相似度至关重要。以下是几种常见的方法:
- 皮尔逊相关系数 :这是一种经典的系数,在比较向量时非常适用。不过,当交集估计值较低时,可能会意外出现高相关性。为了应对这种情况,可以乘以一个阻尼因子,如 50/min(50, 评分交集) ,随着估计数量的增加,该因子的影响会减小。
- 斯皮尔曼相关性 :与皮尔逊相关系数的主要区别在于它考虑了排名因素,即不使用评分的绝对值,而是使用其序号。总体而言,结果与皮尔逊相关系数非常接近。
- 余弦距离 :也是一种经典的测量因子。标准化向量之间夹角的余弦值就是皮尔逊相关系数,二者公式相同。该距离利用了余弦的性质:如果两个向量同向(夹角为 0),则它们之间夹角的余弦值为 1;反之,垂直向量之间夹角的余弦值为 0。

2. 数据准备

由于不同用户对物品的评价方式不同,在进行计算之前,最好对数据进行归一化处理,将数据转换为单一尺度,以便算法能够正确比较结果。以下是几种常见的归一化方法:
| 归一化方法 | 描述 | 适用场景 | 注意事项 |
| — | — | — | — |
| 中心化(均值中心化) | 从用户的评分中减去其平均评分 | 非二进制矩阵 | 仅适用于非二进制矩阵 |
| 标准化(z - 分数) | 除了中心化外,还将用户的评分除以用户的标准差 | 通用 | 逆变换后评分可能超出范围,但可通过四舍五入解决 |
| 双重标准化 | 第一次按用户评分进行归一化

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值