19、市场篮分析、推荐引擎与序列分析

市场篮分析、推荐引擎与序列分析

1. 基于物品的协同过滤(IBCF)

IBCF 利用物品之间的相似度而非用户之间的相似度来进行推荐。其背后的假设是,用户会更喜欢与他们喜欢的其他物品相似的物品。该模型通过计算所有物品的成对相似度矩阵来构建,常用的相似度度量方法有皮尔逊相关系数和余弦相似度。为了减小相似度矩阵的大小,可以只保留 k 个最相似的物品。然而,限制邻域大小可能会显著降低准确性,导致与基于用户的协同过滤(UCBF)相比性能较差。

以一个简化的例子来说,如果 k = 1,与《疯狂的麦克斯》最相似的物品是《美国狙击手》,那么可以将《美国狙击手》的评分作为《疯狂的麦克斯》的预测评分。

2. 奇异值分解(SVD)和主成分分析(PCA)

2.1 数据降维的必要性

在实际应用中,数据集的用户和物品数量可能达到数百万。即使评分矩阵不是很大,通过创建一个较小(低秩)的矩阵来捕获高维矩阵中的大部分信息,进行降维也是有益的。这样做可以潜在地识别数据中的重要潜在因素及其相应的权重,例如评分矩阵中的电影类型或书籍主题。即使无法辨别有意义的因素,这些技术也可以过滤掉数据中的噪声。

需要注意的是,大型数据集可能会导致稀疏矩阵,其中许多评分缺失。而 SVD 和 PCA 方法不能处理有缺失值的矩阵,因此需要进行数据插补。常见的插补技术包括使用均值、中位数或将缺失值编码为零, recommenderlab 包的默认插补方法是使用中位数。

2.2 奇异值分解(SVD)

SVD 是一种矩阵分解方法,可以将一组相关特征转换为一组不相关特征。假设有一个矩阵 A,它可以分解为三个

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值