7、使用Spark获取、处理和准备数据

反内卷战士508

于 2025-09-15 16:43:59 发布

阅读量24

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark机器学习实战指南文章标签： Spark 数据处理特征提取

本文链接：https://blog.youkuaiyun.com/nut55/article/details/152443062

Spark机器学习实战指南专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

使用Spark获取、处理和准备数据

1. 探索评分数据集

首先，我们来查看评分数据。可以使用以下代码读取数据：

rating_data = sc.textFile("/PATH/ml-100k/u.data")
print rating_data.first()
num_ratings = rating_data.count()
print "Ratings: %d" % num_ratings

运行上述代码后，会得到如下结果：

196
242
3
881250949
Ratings: 100000

可以看到，共有100,000条评分记录，且这些记录是用制表符（ \t ）分隔的。接下来我们计算一些基本的统计信息和评分值的频率直方图：

rating_data = rating_data_raw.map(lambda line: line.split("\t"))
ratings = rating_data.map(lambda fields: int(fields[2]))
max_rating = ratings.reduce(lambda x, y: max(x, y))
min_rating = ratings.reduce(lambda x, y: min(x, y))
mean_rating = ratings.reduce(lambda x, y: x + y) / num_ratings
median_rat