使用Spark获取、处理和准备数据
1. 探索评分数据集
首先,我们来查看评分数据。可以使用以下代码读取数据:
rating_data = sc.textFile("/PATH/ml-100k/u.data")
print rating_data.first()
num_ratings = rating_data.count()
print "Ratings: %d" % num_ratings
运行上述代码后,会得到如下结果:
196
242
3
881250949
Ratings: 100000
可以看到,共有100,000条评分记录,且这些记录是用制表符( \t )分隔的。接下来我们计算一些基本的统计信息和评分值的频率直方图:
rating_data = rating_data_raw.map(lambda line: line.split("\t"))
ratings = rating_data.map(lambda fields: int(fields[2]))
max_rating = ratings.reduce(lambda x, y: max(x, y))
min_rating = ratings.reduce(lambda x, y: min(x, y))
mean_rating = ratings.reduce(lambda x, y: x + y) / num_ratings
median_rat
超级会员免费看
订阅专栏 解锁全文
6116

被折叠的 条评论
为什么被折叠?



