使用Spark进行简单的数据统计
给定数据集为各年龄段不同性别的用户对电影观看情况的一个统计主要用了Spark中算子的一些操作
相关的数据文件
1. 年龄段在“18-24”的男性年轻人,最喜欢看哪10部
首先读取文件,在用户文件中读取符合条件的年轻人
val conf =new SparkConf().setAppName("read_gz_file").setMaster("local")
val sc =new SparkContext(conf)
val user = sc.textFile("users.dat")
val movies = sc.textFile("movies.dat")
val rating = sc.textFile("ratings.dat")
val M_user = user.map(_.split("::")).filter(temp =>
temp(2).toInt >= 18 & temp(2).toInt <= 24 & temp(1).equals("M") ).map{
x =>(x(0),(x(1

这篇博客介绍了如何使用Spark进行数据统计,包括找出年龄在18-24岁的男性最喜欢看的前10部电影,得分最高的10部电影,看过电影最多的前10个人,以及男性和女性看过的最多电影。通过结合Spark算子如`combineByKey`、`sortby`等进行数据处理和排序。
最低0.47元/天 解锁文章
1971

被折叠的 条评论
为什么被折叠?



