Python Spark创建推荐引擎(2)学习笔记十二

本文详细介绍了如何使用Python Spark构建推荐系统,涵盖了从读取配置文件到训练RatingRDD数据,利用ALS模块进行训练,以及如何根据模型进行用户和电影的推荐。在训练过程中,通过ALS.train命令创建了MatrixFactorizationModel模型,并展示了针对用户和电影的推荐结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

12.6如何训练数据

ALS训练数据格式是RatingRDD数据类型
在这里插入图片描述

12.6.1配置文件读取路径

在这里插入图片描述
以上程序判断
·如果sc.master[0:5]是“local”,代表当前本地运行,读取文本文件。
·sc.master[0:5]不是是“local”,就有可能是YARN client或者Spark Stand Alone,必须读取HDFS文件。

12.6.2导入-100k数据

我们使用sc.textFile读取ml-100k数据集的u.data,并查看数据项数
在这里插入图片描述

12.6.3查看u.data第一项数据

在这里插入图片描述
以上4个字段分别是:用户id、项目id、评价、日期时间。

12.6.4导入Rating模块

在这里插入图片描述

12.6.5读取rawUserRDD前3个字段

在这里插入图片描述

12.6.6准备ALS训练数据

ALS训练数据格式是RatingRDD数据类型,Rating定义如下。
Rating(user,product,rating)
各字段说明:

字段 说明
User 用户
Product 产品
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值