1. 协同过滤内容
- 协同过滤
- 显性反馈与隐性反馈
- 缩放正则化参数
- 冷启动问题
2. 协同过滤
协同过滤 通常用于推荐系统。 这些技术旨在填写用户项关联矩阵的缺失条目。 spark.ml 目前支持基于模型的协同过滤, 其中用户和产品由一小组可用于预测缺失条目的潜在因素描述。spark.ml 使用交替最小二乘( ALS) 算法来学习这些潜在因素。 实现中 spark.ml 包含以下参数:
- numBlocks 是用户和项目将被分区为块以便并行计算的块数( 默认为 10)
- rank 是模型中潜在因子的数量( 默认为 10,一般取10~1000,太小误差大;太大泛化能力差)
- maxIter 是要运行的最大迭代次数( 默认为 10)
- regParam 指定 ALS 中的正则化参数( 默认为 1.0)
- implicitPrefs 指定是使用显式反馈 ALS 变体还是使用适用于隐式反馈数据的变体 ( 默认值 false 表示使用显式反馈)
- alpha 是适用于 ALS 的隐式反馈变量的参数, 其控制偏好观察中的 基线置信度 ( 默认为 1.0)
- nonnegative 指定是否对最小二乘使用非负约束( 默认为 false)
注意: 基于 D