使用Spark进行排名统计

最新推荐文章于 2023-11-10 15:56:38 发布

原创

最新推荐文章于 2023-11-10 15:56:38 发布 · 4.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#spark #scala #rank

这篇博客介绍了如何使用Spark进行数据统计，包括找出年龄在18-24岁的男性最喜欢看的前10部电影，得分最高的10部电影，看过电影最多的前10个人，以及男性和女性看过的最多电影。通过结合Spark算子如`combineByKey`、`sortby`等进行数据处理和排序。

使用Spark进行简单的数据统计

给定数据集为各年龄段不同性别的用户对电影观看情况的一个统计主要用了Spark中算子的一些操作

相关的数据文件
这里写图片描述
1. 年龄段在“18-24”的男性年轻人，最喜欢看哪10部

    首先读取文件，在用户文件中读取符合条件的年轻人

        val conf =new SparkConf().setAppName("read_gz_file").setMaster("local")
        val sc =new SparkContext(conf)
        val user = sc.textFile("users.dat")
        val movies = sc.textFile("movies.dat")
        val rating = sc.textFile("ratings.dat")
        val M_user = user.map(_.split("::")).filter(temp =>
          temp(2).toInt >= 18 & temp(2).toInt <= 24 & temp(1).equals("M") ).map{
          x =>(x(0),(x(1