17、利用Spark和Mahout构建推荐系统

最新推荐文章于 2025-09-29 11:08:44 发布

q3r4s5t

最新推荐文章于 2025-09-29 11:08:44 发布

阅读量69

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据分析实战：Spark与Hadoop深度解析文章标签： Spark Mahout 推荐系统

本文链接：https://blog.youkuaiyun.com/q3r4s5t/article/details/149962989

大数据分析实战：Spark与Hadoop深度解析专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用Spark和Mahout构建推荐系统

1. 机器学习与Spark和Hadoop

在处理机器学习任务时，Spark和Hadoop提供了强大的平台支持。可以通过以下步骤启动Scala shell并使用相关包：

[cloudera@quickstart ~]$ spark-1.6.0-bin-hadoop2.6/bin/spark-shell --master local[*] --packages maropu:hivemall-spark:0.0.6

接着创建Hivemall函数（目前Hivemall for Spark不支持Python）：

scala> :load define-udfs.sh

之后就可以执行来自这里的示例。

机器学习是让机器在无需预定义规则编程的情况下工作，并从数据中学习的科学。它用于构建回归、分类、聚类、异常检测和基于推荐的系统。涉及在历史数据上训练或拟合模型，并使用训练好的模型对新数据进行预测。

Spark提供了MLlib库（基于RDD的API）和ML管道（基于DataFrames的API）来构建机器学习应用程序。从版本2.0开始，MLlib进入维护模式，未来版本将被弃用，ML管道将成为主流API。

Apache Mahout是基于Hadoop构建的机器学习库，现在已与Spark集成，以提供内存计算性能并避免可扩展性问题。H2O是一个开源项目，拥有强大的机器学习和深度学习算法，并通过Sparkling Water产品与Spark集成。

Hadoop和Spark平台都为机器学习算法提供了更高的可扩展性和性能。

2. 推荐系统概述

近年来，基于机器学习的推荐系统在各种应用中变得非常流行且必要，如电影、音乐、书籍、新闻、搜索查询和产品等。推荐系统通常根据用户的口味和偏好向用户推荐产品，帮助用户发现他们原本不知道存在或不知道如何查找的相关产品和信息。

2.1 推荐系统的输入与输出

推荐系统的输入是用户的喜好反馈，输出是基于这些反馈的推荐项目。常见的推荐系统示例如下：
- Netflix/YouTube：电影/视频推荐
- Amazon.com：“购买此商品的顾客还购买了”部分
- Spotify：音乐推荐
- Google：新闻推荐

2.2 构建推荐系统的方法

构建推荐系统大致有两种方法：基于内容的过滤和协同过滤。

2.2.1 基于内容的过滤

基于内容的过滤系统根据项目属性构建推荐器。例如，电影的属性包括类型、演员、导演、制片人等。用户的口味确定属性的值和权重，并将其作为推荐系统的输入。这种技术是特定领域的，同一算法不能用于推荐其他类型的产品。例如，向经常观看牛仔电影的用户推荐西部类型的电影。

2.2.2 协同过滤

协同过滤系统根据项目或用户之间的相似性度量来推荐项目。相似用户喜欢的项目将推荐给其他用户，类似于从朋友那里获得推荐。这种技术不是特定领域的，不需要了解项目的具体信息，同一算法可用于任何类型的产品，如电影、音乐、书籍等。

协同过滤有两种类型：基于用户的和基于项目的。

2.2.2.1 基于用户的协同过滤

基于用户的推荐系统基于用户之间的相似性。其算法背后的思想是相似用户具有相似的偏好。例如，以下表格中，User1和User3对Movie1和Movie4的评分相似（4和5），这表明他们的口味相同。基于此，可以向User1推荐User3评分为5的Movie2，向User3推荐Movie3。
| 用户 | Movie1 | Movie2 | Movie3 | Movie4 |
| ---- | ---- | ---- | ---- | ---- |
| User1 | 4 | | 4 | 4 |
| User2 | 4 | 4 | 2 | |
| User3 | 5 | 5 | | 5 |

通过创建用户 - 项目矩阵，并通过查找相似的用户偏好来预测缺失的条目。

2.2.2.2 基于项目的协同过滤

基于项目的推荐基于项目之间的相似性。其算法思想是用户对相似项目有相似的偏好。

算法步骤如下：
对于用户U没有偏好的每个项目I，计算I与U有偏好的其他每个项目之间的相似性。计算加权平均值，其中加权偏好是项目I与U有偏好的任何其他项目的相似性与该项目的偏好值的乘积。将U有偏好的所有项目的加权偏好相加得到加权和，再除以项目数量得到偏好值P的加权平均值。如果P值高于特定阈值，则可以向U推荐该项目。构建基于项目的推荐器需要偏好数据和项目之间的相似性概念。

基于项目的协同过滤系统的可扩展性比基于用户的过滤要好得多，并且基于项目的推荐系统应用最为广泛。大多数成功的公司用户数量多于产品（项目）数量。

也可以将基于内容的过滤和协同过滤结合起来以获得优化结果。例如，分别用基于内容的方法和协同过滤预测评分，然后取平均值以创建混合预测。

2.3 推荐系统的局限性

推荐系统存在一些局限性，了解这些局限性对于构建成功的推荐系统很重要：
- 冷启动问题 ：协同过滤系统基于相似用户的现有数据。如果构建全新的推荐系统，开始时没有用户数据。可以先使用基于内容的过滤，然后再转向协同过滤方法。
- 可扩展性 ：随着用户数量的增加，算法会遇到可扩展性问题。例如，如果有1000万客户和10万部电影，需要创建一个包含一万亿个元素的稀疏矩阵。
- 数据不准确 ：输入数据可能并不总是准确的，因为人类在提供评分时并不完美。用户行为比评分更重要，在这种情况下，基于项目的推荐提供了更好的解决方案。

3. 使用MLlib构建推荐系统

Spark的MLlib实现了一种名为交替最小二乘法（ALS）的协同过滤算法来构建推荐系统。

3.1 ALS算法原理

ALS将评分矩阵（R）建模为低秩用户（U）和产品（V）因子的乘积，并通过最小化观察评分的重建误差来学习这些因子。未知评分可以通过将这些因子相乘来计算，从而根据预测评分推荐产品。

3.2 实现电影推荐系统

以下是使用ALS算法实现电影推荐系统的详细步骤：

3.2.1 准备环境

需要安装NumPy，这是ALS算法的要求。可以从这里下载包含6040个用户对3706部电影的100万条评分的公共Movielens数据，并将文件复制到HDFS：

wget http://files.grouplens.org/datasets/movielens/ml-1m.zip
unzip ml-1m.zip
cd ml-1m
hadoop fs -put movies.dat movies.dat
hadoop fs -put ratings.dat ratings.dat

movies.dat 文件的格式为电影ID、电影名称和电影类型，示例如下：

1::Toy Story (1995)::Animation|Children's|Comedy
2::Jumanji (1995)::Adventure|Children's|Fantasy
3::Grumpier Old Men (1995)::Comedy|Romance
4::Waiting to Exhale (1995)::Comedy|Drama
5::Father of the Bride Part II (1995)::Comedy

ratings.dat 文件的格式为用户ID、电影ID、评分和时间戳，示例如下：

1::1193::5::978300760
1::661::3::978302109
1::914::3::978301968
1::3408::4::978300275
1::2355::5::978824291

3.2.2 创建RDD

进入PySpark shell以交互式地处理这些数据集并构建推荐系统。也可以使用IPython或Zeppelin Notebook执行以下命令。如果在YARN模式下执行，将master改为yarn-client：

pyspark --master local[*]

在shell中，导入与ALS算法相关的依赖项，并创建函数来解析电影和评分数据集：

>>> from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating
>>> def parseMovie(line):
     fields = line.strip().split("::")
     return int(fields[0]), fields[1]
>>> def parseRating(line):
     fields = line.strip().split("::")
     return int(fields[0]), int(fields[1]), float(fields[2])

使用上述解析函数创建电影和评分的RDD，并计算评分、用户和电影的数量：

>>> moviesRDD = sc.textFile("movies.dat").map(parseMovie)
>>> ratingsRDD = sc.textFile("ratings.dat").map(parseRating)
>>> numRatings = ratingsRDD.count()
>>> numUsers = ratingsRDD.map(lambda r:r[0]).distinct().count()
>>> numMovies = ratingsRDD.map(lambda r: r[1]).distinct().count()
>>> print "Ratings dataset has %d ratings from %d users on %d movies." % (numRatings, numUsers, numMovies)
Ratings dataset has 1000209 ratings from 6040 users on 3706 movies.

3.2.3 使用DataFrames探索数据

创建电影和评分RDD的DataFrames，以便使用SQL交互式地探索数据集：

>>> movieSchema = ['movieid', 'name']
>>> ratingsSchema = ['userid', 'movieid', 'rating']
>>> moviesDF  = moviesRDD.toDF(movieSchema)
>>> ratingsDF = ratingsRDD.toDF(ratingsSchema)
>>> moviesDF.printSchema()
root
 |-- movieid: long (nullable = true)
 |-- name: string (nullable = true)
>>> ratingsDF.printSchema()
root
 |-- userid: long (nullable = true)
 |-- movieid: long (nullable = true)
 |-- rating: double (nullable = true)

将DataFrames注册为临时表：

>>> ratingsDF.createOrReplaceTempView("ratings")
>>> moviesDF.createOrReplaceTempView("movies")

获取每部电影的最大和最小评分以及评分用户的数量：

>>> ratingStats = spark.sql(
   """select movies.name, movieratings.maxrtng, movieratings.minrtng, 
movieratings.cntusr
     from(SELECT ratings.movieid, max(ratings.rating) as maxrtng,
     min(ratings.rating) as minrtng, count(distinct(ratings.userid)) as 
cntusr 
     FROM ratings group by ratings.movieid ) movieratings
     join movies on movieratings.movieid=movies.movieId
     order by movieratings.cntusr desc""")
>>> ratingStats.show(5)

显示前10个最活跃的用户及其评分次数：

>>> mostActive = spark.sql(
   """SELECT ratings.userid, count(*) as cnt from ratings
             group by ratings.userid order by cnt desc limit 10""")
>>> mostActive.show(5)

找出用户4169评分高于4的电影：

>>> user4169 = spark.sql("""SELECT ratings.userid, ratings.movieid,
   ratings.rating, movies.name FROM ratings JOIN movies
   ON movies.movieId=ratings.movieid
   where ratings.userid=4169 and ratings.rating > 4""")
>>> user4169.show(5)

3.2.4 创建训练和测试数据集

使用MLlib的ALS算法创建模型，首先将评分数据分为两部分：训练集（80%）和测试集（20%）。使用 randomSplit() 方法创建训练数据和测试数据，并进行缓存以提高迭代ALS算法的性能：

>>> RDD1, RDD2 = ratingsRDD.randomSplit([0.8, 0.2])
>>> trainingRDD = RDD1.cache()
>>> testRDD = RDD2.cache()
>>> trainingRDD.count()
800597
>>> testRDD.count()
199612

3.2.5 创建模型

运行ALS算法创建模型，该算法以训练RDD（用户ID、电影ID和评分）为输入，并指定模型中的潜在因子数量（rank）和迭代次数：

>>> rank = 10
>>> numIterations = 10
>>> model = ALS.train(trainingRDD, rank, numIterations)

查看模型可用的方法：

>>> dir(model)

3.2.6 进行预测

从生成的模型中获取用户4169的前五个电影预测：

>>> user4169Recs = model.recommendProducts(4169, 5)
>>> user4169Recs
[Rating(user=4169, product=128, rating=5.6649367937005231), 
Rating(user=4169, product=2562, rating=5.526190642914254), 
Rating(user=4169, product=2503, rating=5.2328684996745327), 
Rating(user=4169, product=3245, rating=5.1980663524880235), 
Rating(user=4169, product=3950, rating=5.0785092078435197)]

3.2.7 用测试数据评估模型

通过比较生成的预测与测试RDD中的实际评分来评估模型。首先从测试RDD中移除评分，创建仅包含用户ID和电影ID的对，将这些对传递给模型以生成预测评分：

>>> testUserMovieRDD = testRDD.map(lambda x: (x[0], x[1]))
>>> testUserMovieRDD.take(2)
[(1, 661), (1, 3408)]
>>> predictionsTestRDD = model.predictAll(testUserMovieRDD).map(lambda r: ((r[0], r[1]), r[2]))
>>> predictionsTestRDD.take(2)
[((4904, 1320), 4.3029711294149289), ((4904, 3700), 4.3938405710892967)]

将测试RDD转换为键值对格式 ((用户ID, 电影ID), 评分) ，并与预测评分进行连接：

>>> ratingsPredictions = testRDD.map(lambda r: ((r[0], r[1]), r[2])).join(predictionsTestRDD)
>>> ratingsPredictions.take(5)
[((5636, 380), (3.0, 2.5810444309550147)), ((5128, 480), (4.0, 
3.8897996775001684)), ((5198, 248), (1.0, 1.9741132086395059)), 
((2016, 3654), (4.0, 4.2239704909063338)), ((4048, 256), (4.0, 
4.1190428484234198))]

3.2.8 检查模型的准确性

检查模型生成的不良预测数量，即实际测试评分小于等于1但预测评分大于等于4的情况：

>>> badPredictions = ratingsPredictions.filter(lambda r: (r[1][0] <= 1 and r[1][1]) >= 4)
>>> badPredictions.take(2)
[((2748, 1080), (1.0, 4.0622434036284556)), ((4565, 175), (1.0, 
4.728689683016448))]
>>> badPredictions.count()
395

使用均方误差（MSE）评估模型，MSE是预测值与实际目标之间的差异：

>>> MeanSquaredError = ratingsPredictions.map(lambda r: (r[1][0] - r[1][1])**2).mean()
>>> print("Mean Squared Error = " + str(MeanSquaredError))
Mean Squared Error = 0.797355258111

MSE值越低，预测效果越好。

3.3 显式反馈与隐式反馈

输入数据可以分为两种类型：显式反馈和隐式反馈。在显式反馈中，用户对项目进行评分，如前面的示例所示，这种情况下一组用户 - 项目对之间的关系是直接已知的。

在许多应用领域和实际情况中，评分可能不可用，只能获得隐式反馈。需要考虑事件的存在或缺失，如是否观看电影等。

Spark MLlib的ALS算法提供了处理隐式反馈的方法，该模型试图将评分与用户偏好的置信水平相关联。使用用户的隐式反馈构建模型的方法如下：

model = ALS.trainImplicit(ratings, rank, numIterations, alpha=0.01)

4. Mahout与Spark集成

Apache Mahout是基于Hadoop构建的通用机器学习库。它最初主要是一个Java MapReduce包，用于运行机器学习算法。由于机器学习算法具有迭代性质，MapReduce存在严重的性能和可扩展性问题，因此Mahout停止了基于MapReduce的算法开发，并通过名为Samsara的新包开始支持新平台，如Spark、H2O和Flink。

4.1 安装Mahout

由于最新版本的Spark与Mahout兼容性不佳，这里使用Spark 1.4.1版本和Mahout 0.12.2版本。下载Spark预构建二进制文件并启动Spark守护进程：

wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.1-bin-hadoop2.6.tgz
tar xzvf spark-1.4.1-bin-hadoop2.6.tgz
cd spark-1.4.1-bin-hadoop2.6

下载Mahout二进制文件并解压：

wget http://mirrors.sonic.net/apache/mahout/0.12.2/apache-mahout-distribution-0.12.2.tar.gz
tar xzvf apache-mahout-distribution-0.12.2.tar.gz

导出以下环境变量并启动Mahout shell：

export MAHOUT_HOME=/home/cloudera/apache-mahout-distribution-0.12.2
export SPARK_HOME=/home/cloudera/spark-1.4.1-bin-hadoop2.6
export MAHOUT_LOCAL=true
export MASTER=yarn-client
export JAVA_TOOL_OPTIONS="-Xmx2048m -XX:MaxPermSize=1024m -Xms1024m"
cd ~/apache-mahout-distribution-0.12.2
bin/mahout spark-shell

4.2 探索Mahout shell

通常使用以下两个Scala导入来启用Mahout Scala DSL绑定以进行线性代数运算：

import org.apache.mahout.math._
import scalabindings._
import MatlabLikeOps._

Mahout shell支持两种类型的向量：

4.2.1 密集向量

密集向量是零元素相对较少的向量。在Mahout命令行中，使用以下命令初始化密集向量：

mahout> val denseVector1: Vector = (3.0, 4.1, 6.2)
denseVector1: org.apache.mahout.math.Vector = {0:3.0,1:4.1,2:6.2}

4.2.2 稀疏向量

稀疏向量是零元素相对较多的向量。在Mahout命令行中，使用以下命令初始化稀疏向量：

mahout> val sparseVector1 = svec((6 -> 1) :: (9 -> 2.0) :: Nil)
sparseVector1: org.apache.mahout.math.RandomAccessSparseVector = {9:2.0,6:1.0}

访问向量元素：

mahout> denseVector1(2)
res0: Double = 6.2

设置向量值：

mahout> denseVector1(2)=8.2
mahout> denseVector1
res2: org.apache.mahout.math.Vector = {0:3.0,1:4.1,2:8.2}

向量的算术运算示例：

mahout> val denseVector2: Vector = (1.0, 1.0, 1.0)
denseVector2: org.apache.mahout.math.Vector = {0:1.0,1:1.0,2:1.0}
mahout> val addVec=denseVector1 + denseVector2
addVec: org.apache.mahout.math.Vector = {0:4.0,1:5.1,2:9.2}
mahout> val subVec=denseVector1 - denseVector2
subVec: org.apache.mahout.math.Vector = {0:2.0,1:3.0999999999999996,2:7.199999999999999}

向量与标量的运算：

mahout> val addScalr=denseVector1+10
addScalr: org.apache.mahout.math.Vector = {0:13.0,1:14.1,2:18.2}
mahout> val addScalr=denseVector1-2
addScalr: org.apache.mahout.math.Vector = {0:1.0,1:2.0999999999999996,2:6.199999999999999}

矩阵的初始化：

4.2.3 密集矩阵

mahout> val denseMatrix = dense((10, 20, 30), (30, 40, 50))
denseMatrix: org.apache.mahout.math.DenseMatrix = 
{
 0 => {0:10.0,1:20.0,2:30.0}
 1 => {0:30.0,1:40.0,2:50.0}
}

4.2.4 稀疏矩阵

mahout> val sparseMatrix = sparse((1, 30) :: Nil, (0, 20) :: (1, 20.5) :: Nil)
sparseMatrix: org.apache.mahout.math.SparseRowMatrix = 
{
 0 => {1:30.0}
 1 => {0:20.0,1:20.5}
}

4.2.5 对角矩阵

mahout> val diagonalMatrix=diag(20, 4)
diagonalMatrix: org.apache.mahout.math.DiagonalMatrix = 
{
 0 => {0:20.0}
 1 => {1:20.0}
 2 => {2:20.0}
 3 => {3:20.0}
}

4.2.6 单位矩阵

mahout> val identityMatrix = eye(4)
identityMatrix: org.apache.mahout.math.DiagonalMatrix = 
{
 0 => {0:1.0}
 1 => {1:1.0}
 2 => {2:1.0}
 3 => {3:1.0}
}

访问矩阵元素：

mahout> denseMatrix(1,1)
res5: Double = 40.0
mahout> sparseMatrix(0,1)
res18: Double = 30.0

获取矩阵的行和列：

mahout> denseMatrix(1,::)
res21: org.apache.mahout.math.Vector = {0:30.0,1:40.0,2:50.0}
mahout> denseMatrix(::,1)
res22: org.apache.mahout.math.Vector = {0:20.0,1:40.0}

设置矩阵行：

mahout> denseMatrix(1,::)=(99,99,99)
res23: org.apache.mahout.math.Vector = {0:99.0,1:99.0,2:99.0}
mahout> denseMatrix
res24: org.apache.mahout.math.DenseMatrix = 
{
 0 => {0:10.0,1:20.0,2:30.0}
 1 => {0:99.0,1:99.0,2:99.0}
}

矩阵是通过引用赋值而不是复制。例如：

mahout> val newREF = denseMatrix
newREF: org.apache.mahout.math.DenseMatrix = 
{
 0 => {0:10.0,1:20.0,2:30.0}
 1 => {0:99.0,1:99.0,2:99.0}
}
mahout> newREF += 10.0
res25: org.apache.mahout.math.Matrix = 
{
 0 => {0:20.0,1:30.0,2:40.0}
 1 => {0:109.0,1:109.0,2:109.0}
}
mahout> denseMatrix
res26: org.apache.mahout.math.DenseMatrix = 
{
 0 => {0:20.0,1:30.0,2:40.0}
 1 => {0:109.0,1:109.0,2:109.0}
}

综上所述，通过Spark和Mahout可以构建强大的推荐系统，并且可以根据不同的需求和数据特点选择合适的方法和技术。无论是基于内容的过滤、协同过滤，还是使用MLlib的ALS算法，都能为用户提供个性化的推荐服务。同时，Mahout与Spark的集成也为处理大规模数据和复杂算法提供了更多的可能性。

5. 推荐系统构建流程总结

为了更清晰地展示使用Spark和Mahout构建推荐系统的整个流程，我们可以用以下mermaid流程图来表示：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px

    A([开始]):::startend --> B(选择构建方法):::process
    B --> C{基于内容过滤?}:::decision
    C -->|是| D(确定项目属性和用户口味):::process
    C -->|否| E{协同过滤?}:::decision
    E -->|是| F{用户基?}:::decision
    F -->|是| G(创建用户 - 项目矩阵):::process
    F -->|否| H(计算项目相似度):::process
    E -->|否| I(结合两种方法):::process
    D --> J(构建推荐器):::process
    G --> J
    H --> J
    I --> J
    J --> K(数据准备):::process
    K --> L(安装必要库):::process
    L --> M(下载数据集):::process
    M --> N(创建RDD或DataFrame):::process
    N --> O(划分训练集和测试集):::process
    O --> P(选择算法):::process
    P --> Q{ALS算法?}:::decision
    Q -->|是| R(训练模型):::process
    Q -->|否| S(选择其他算法训练):::process
    R --> T(模型评估):::process
    S --> T
    T --> U{模型效果满意?}:::decision
    U -->|是| V(部署推荐系统):::process
    U -->|否| W(调整参数或方法):::process
    W --> P
    V --> X([结束]):::startend

这个流程图涵盖了从选择构建方法到最终部署推荐系统的整个过程，其中包括了数据准备、模型训练、评估和调整等关键步骤。

6. 不同构建方法对比

7. 模型评估指标拓展

在使用MLlib的ALS算法构建推荐系统时，我们使用了均方误差（MSE）来评估模型的准确性。除了MSE，还有其他一些常用的评估指标可以用来更全面地评估推荐系统的性能：

7.1 均方根误差（RMSE）

均方根误差是均方误差的平方根，它可以更直观地反映预测值与实际值之间的平均误差大小。计算公式如下：
[ RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2} ]
其中，(y_i) 是实际值，(\hat{y}_i) 是预测值，(n) 是样本数量。

在Python中，可以使用以下代码计算RMSE：

from math import sqrt

# 假设 ratingsPredictions 是预测值和实际值的元组列表
mse = ratingsPredictions.map(lambda r: (r[1][0] - r[1][1])**2).mean()
rmse = sqrt(mse)
print("Root Mean Squared Error = " + str(rmse))

7.2 平均绝对误差（MAE）

平均绝对误差是预测值与实际值之间绝对误差的平均值，它可以避免误差的正负抵消问题。计算公式如下：
[ MAE = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i| ]

在Python中，可以使用以下代码计算MAE：

mae = ratingsPredictions.map(lambda r: abs(r[1][0] - r[1][1])).mean()
print("Mean Absolute Error = " + str(mae))

7.3 准确率和召回率

在推荐系统中，准确率和召回率通常用于评估推荐结果的相关性。准确率是指推荐结果中相关项目的比例，召回率是指相关项目被推荐出来的比例。

假设我们有一个测试集，其中包含用户的实际偏好项目和模型的推荐项目，可以使用以下代码计算准确率和召回率：

from pyspark.sql.functions import col

# 假设 testRDD 是测试集，predictionsTestRDD 是预测结果
# 转换为 DataFrame 方便操作
test_df = testRDD.toDF(["user_id", "movie_id", "rating"])
predictions_df = predictionsTestRDD.toDF(["(user_id, movie_id)", "predicted_rating"])

# 合并测试集和预测结果
joined_df = test_df.join(predictions_df, on=[col("user_id"), col("movie_id")])

# 定义阈值，判断推荐是否相关
threshold = 4
relevant_items = joined_df.filter(col("rating") >= threshold)
recommended_items = joined_df.filter(col("predicted_rating") >= threshold)

# 计算准确率和召回率
true_positives = relevant_items.join(recommended_items, on=["user_id", "movie_id"]).count()
precision = true_positives / recommended_items.count()
recall = true_positives / relevant_items.count()

print("Precision = " + str(precision))
print("Recall = " + str(recall))