Scala编写Spark分组后排序取TOP n的代码

最新推荐文章于 2023-07-17 15:36:26 发布

原创最新推荐文章于 2023-07-17 15:36:26 发布 · 3.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#scala #spark

spark 专栏收录该内容

10 篇文章

订阅专栏

1、首先来练习最简单的一种情况，数据如下所示，我们要先进行分组然后取每组中的最大值

具体代码：

//两列数据
  def top_1(): Unit = {
    val sc = TransformationOperation.getSc("groupByKey2Top")
    val lines = sc.textFile("D:\\data\\testdatas\\spark\\group2top.txt")
    lines
      .map(line => (line.split(" ")(0).toInt, line.split(" ")(1).toInt))
      //按第一列进行分组
      .groupByKey()
      .foreach(line => {
        //将每组的value转化为list进行排序
        val arrs = line._2
        val list = arrs.toList.sorted.reverse
        println(line._1 + "组最大值：" + list(0))
      })
  }

输出：

1组最大值：90
2组最大值：100

******************************************************************************************

2、第二种情况的数据如下：第一列：科目，第二列：名字，第三列：分值。

需求：求出每科的最高分(包含名字)

A zs 90
B ww 100
A ls 100
C hr 80
C js 100
B wk 60

具体代码：

// three columns
  def top_2(): Unit = {
    val sc = TransformationOperation.getSc("groupByKey2Top")
    val lines = sc.textFile("D:\\data\\testdatas\\spark\\group2top2.txt")
    val categoryRdd = lines.map(line => {
      val category = line.split(" ")(0)
      val name = line.split(" ")(1)
      val score = line.split(" ")(2).toInt
      new Tuple2[String, Tuple2[String, Integer]](category, new Tuple2[String, Integer](name, score))
    }).groupByKey()
    /** categoryRdd
      * (B,CompactBuffer((ww,100), (wk,60)))
      * (A,CompactBuffer((zs,90), (ls,100)))
      * (C,CompactBuffer((hr,80), (js,100)))
      */
    val result = categoryRdd.map(x => {
      val category = x._1
      val scoreInfos = x._2
      var lists = List[(String, Integer)]()
      for (i <- scoreInfos) {
        val name = i._1
        val score = i._2
        lists = ((name, score)) :: lists
      }
      lists = lists.sortBy(_._2).reverse.take(1)
      new Tuple2[String, Iterable[(String, Integer)]](category, lists)
    })
    result.foreach(println(_))
  }

输出结果：

(B,List((ww,100)))
(A,List((ls,100)))
(C,List((js,100)))

*********************************************手动分割线****************************************************

实现的方式很多，在第二种情况我尝试过 sc.parallelize(lists).... 来代替lists = lists.sortBy(_._2).reverse.take(1)将集合zhuan转化为RDD进行操作，不过因为lists的原因报错了，暂时没找到合适的解决办法，有兴趣的也可以试试然后来帮我解答解答疑惑

欢迎加群大家一起学习大数据~群里还有很多资料可供参考~

大数据大佬菜鸡交流群 575419003