市场篮分析、推荐引擎与序列分析
1. 基于物品的协同过滤(IBCF)
IBCF 利用物品之间的相似度而非用户之间的相似度来进行推荐。其背后的假设是,用户会更喜欢与他们喜欢的其他物品相似的物品。该模型通过计算所有物品的成对相似度矩阵来构建,常用的相似度度量方法有皮尔逊相关系数和余弦相似度。为了减小相似度矩阵的大小,可以只保留 k 个最相似的物品。然而,限制邻域大小可能会显著降低准确性,导致与基于用户的协同过滤(UCBF)相比性能较差。
以一个简化的例子来说,如果 k = 1,与《疯狂的麦克斯》最相似的物品是《美国狙击手》,那么可以将《美国狙击手》的评分作为《疯狂的麦克斯》的预测评分。
2. 奇异值分解(SVD)和主成分分析(PCA)
2.1 数据降维的必要性
在实际应用中,数据集的用户和物品数量可能达到数百万。即使评分矩阵不是很大,通过创建一个较小(低秩)的矩阵来捕获高维矩阵中的大部分信息,进行降维也是有益的。这样做可以潜在地识别数据中的重要潜在因素及其相应的权重,例如评分矩阵中的电影类型或书籍主题。即使无法辨别有意义的因素,这些技术也可以过滤掉数据中的噪声。
需要注意的是,大型数据集可能会导致稀疏矩阵,其中许多评分缺失。而 SVD 和 PCA 方法不能处理有缺失值的矩阵,因此需要进行数据插补。常见的插补技术包括使用均值、中位数或将缺失值编码为零, recommenderlab 包的默认插补方法是使用中位数。
2.2 奇异值分解(SVD)
SVD 是一种矩阵分解方法,可以将一组相关特征转换为一组不相关特征。假设有一个矩阵 A,它可以分解为三个
超级会员免费看
订阅专栏 解锁全文
1472

被折叠的 条评论
为什么被折叠?



