Python Spark创建推荐引擎（2）学习笔记十二

最新推荐文章于 2022-10-21 09:21:24 发布

原创

最新推荐文章于 2022-10-21 09:21:24 发布 · 置顶 · 383 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

本文详细介绍了如何使用Python Spark构建推荐系统，涵盖了从读取配置文件到训练RatingRDD数据，利用ALS模块进行训练，以及如何根据模型进行用户和电影的推荐。在训练过程中，通过ALS.train命令创建了MatrixFactorizationModel模型，并展示了针对用户和电影的推荐结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

12.6如何训练数据

ALS训练数据格式是RatingRDD数据类型
在这里插入图片描述

12.6.1配置文件读取路径

在这里插入图片描述
以上程序判断
·如果sc.master[0:5]是“local”，代表当前本地运行，读取文本文件。
·sc.master[0:5]不是是“local”，就有可能是YARN client或者Spark Stand Alone,必须读取HDFS文件。

12.6.2导入-100k数据

我们使用sc.textFile读取ml-100k数据集的u.data,并查看数据项数
在这里插入图片描述

12.6.3查看u.data第一项数据

在这里插入图片描述
以上4个字段分别是：用户id、项目id、评价、日期时间。

12.6.4导入Rating模块

在这里插入图片描述

12.6.5读取rawUserRDD前3个字段

在这里插入图片描述

12.6.6准备ALS训练数据

ALS训练数据格式是RatingRDD数据类型，Rating定义如下。
Rating(user,product,rating)
各字段说明：

字段	说明
User	用户
Product	产品

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

停止的闹钟

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

基于PySpark的电影推荐引擎

普通Gopher

10-09

2148

weixin_36074271的博客

12-23

613

参与评论您还未登录，请先登录后发表或查看评论

Ubuntu安装hadoop集群 hive spark scala

malingyu的专栏

10-21

1324

hadoop spark hive

pyspark模型训练

qq_19072921的博客

03-30

3227

1、pyspark启动正常情况pyspark shell的启动成功后的界面： [admin@datacenter4 ~]$ pyspark Python 2.7.5 (default, Nov 16 2020, 22:23:17) [GCC 4.8.5 20150623 (Red Hat 4.8.5-44)] on linux2 Type "help", "copyright", "credits" or "license" for more information. Welcome to ...

用Spark学习矩阵分解推荐算法

weixin_33716557的博客

08-01

230

Python Spark创建推荐引擎 (4) 学习笔记十二

停止的闹钟博客

08-16

315

12.12创建Recommend.py 12.12.1创建Recommend.py （1）右键单击PythonProduct，出现快捷菜单，依次选择New->File,打开New File对话框，输入“Recommendpy ”，单击Finish。 12.12.2main主程序代码 if name == “main”: if len(sys.argv) != 3: print(“请输入2个参...

Python Spark创建推荐引擎 (3) 学习笔记十二

停止的闹钟博客

08-16

363

12.10创建Recommend项目这里我们将建立Recommend推荐系统，系统有2个程序，说明如下 ·RecommendTrain.py （1）数据准备阶段读取u.data，经过处理后产生评分数据ratingsRDD （2）训练阶段评分数据ratingsRDD经过ALS.train训练后产生Model （3）存储模型存储模型Model在本地货HDFS中，作为后续推荐使用。 ·Recom...

Python Spark创建推荐引擎（1）学习笔记十二

停止的闹钟博客

08-16

259

Spark学习笔记（一）Spark初识【特性、组成、应用】

08-25

2. 易用性：Spark 提供了丰富的编程接口，支持Java、Python和Scala，同时内置了80多种高级算法，简化了开发过程。Spark Shell允许用户以交互方式测试和验证代码，增加了开发的便捷性。 3. 通用性：Spark 是一个全面...

协同过滤算法做推荐系统核心代码

csdnliu123的博客

04-11

602

代码： package com.lbw import java.io.File import org.apache.log4j.Logger import org.apache.log4j.Level import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.Spa...

SparkRating：SparkRating

02-14

火花评级数据科学家Jose RF

商品推荐模型分析、实现.（scala）

iteye_4668的博客

04-16

3005

als算法参数_spark ALS算法

weixin_36433147的博客

12-24

1217

ALS算法参数:// ALS关键代码val model =ALS.train(训练集,rank,循环次数iter,lambda)那是怎么想到要这样设置的呢？那就要在了解算法的基础上来设置此参数；1、训练集，数据格式：(用户id 物品id 评分(0-1) )2、rank，根据数据的分散情况测试出来的值，特征向量纬度，如果这个值太小拟合的就会不够，误差就很大；如果这个值很大，就会导致模型大泛化能力...

ALS推荐算法理解及Spark编程实现

zylove2010的博客

10-21

2559

前言ALS(alternating least squares)是交替最小二乘的简称，在机器学习上下文中特指基于交替最小二乘求解的协同过滤推荐算法。Spark1.3版本的MLlib库中增加了对ALS算法的支持，因此，在实际项目中可通过Spark的MLlib库调用ALS算法实现协同过滤推荐。ALS的基本原理ALS属于SVD++算法中的一种，其理论基础源于SVD(奇异值分解)，即任何一个矩阵均可分解成两

Pysprak

孔祥旭的博客

12-03

403

pyspark --master local[N] local[N]代表在本地终端运行, 同时使用N个线程, N尽量使用机器CPU核心数量方法说明 sc.master 查看运行线程的数量 sc.textFile(‘file:/usr/readme.txt’) 读取本地文件, 路径加file, 告诉系统要读取HDFS文件 sc.textFile.count() 显示项数...

大数据手册(Spark)--Spark SQL and DataFrames

WilenWu

01-03

1929

文章目录Spark 初始化弹性分布式数据集 (RDD)Spark SQLDataFrameDataSetSpark Streaming Spark 初始化 spark 交互式执行环境 spark-shell --master <master-url> # scala pyspark --master <master-url> # python 下面介绍几种常用Spar...

基于Spark的协同过滤音乐推荐(python源码分析)

明月几时有，把酒问青天

11-24

4294

因为要进行大数据场景下利用Spark做音乐推荐，所以记录一下学习Spark的过程和实验过程。目录一对Spark整体上的认识二 spark mllib recommendation三本文实验代码一对Spark整体上的认识 Spark是一个分布式计算引擎，将大量的计算任务分发到计算结点，实现分布式计算，和hadoop不同的是，Spark计算的中间结果存储在内存中，所以同等配置机器情况下，...

实例：2. ALS算法（pycharm）

ant的博客

01-08

2894

分为两个部分： 1. 训练模型 RecommendTrain.py 2. 推荐 Recommend.py 将模型保存起来，可以更方便的调用模型的保存和加载： model.save(sc, Path + "ALSmodel") model = MatrixFactorizationModel.load(sc, Path+"ALSmodel") RecommendTr...