Spark Scala当中reduceByKey的用法

最新推荐文章于 2024-07-25 09:26:43 发布

原创最新推荐文章于 2024-07-25 09:26:43 发布 · 2.5k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#马克-to-win #马克java社区 #Scala #Spark Scala reduceByKey

Spark和Scala 专栏收录该内容

26 篇文章

订阅专栏

本文详细介绍了Spark中reduceByKey函数的使用方法，通过示例展示了如何对具有相同Key的元素进行聚合操作。同时，文章还解释了union操作如何用于合并两个RDD，提供了具体的代码实现，并展示了collect方法的使用，以便于观察分布式数据集的内容。

/*reduceByKey(function)
reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行function的reduce操作(如前所述)，因此，Key相同的多个元素的值被reduce为一个值，然后与原RDD中的Key组成一个新的KV对。

reduceByKey(_+_)是reduceByKey((x,y) => x+y)的一个简洁的形式
*/

    val rdd08 = sc.parallelize(List((1, 1), (1, 4),(1, 3), (3, 7), (3, 5)))
    val rdd08_1 = rdd08.reduceByKey((x, y) => x + y)
    println("reduceByKey 用法 " + rdd08_1.collect().mkString(","))

    sc.stop()
}

def myunion(rdd05: RDD[Int], rdd06: RDD[Int]): Unit = {
    val res: RDD[Int] = rdd05.union(rdd06)
  collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察，毕竟分布式数据集比较抽象。Spark的collect方法，是Action类型的一个算子，会从远程集群拉取数据到driver端。最后，将大量数据
汇集到一个driver节点上，将数据用数组存放，占用了jvm堆内存，非常用意造成内存溢出，只用作小型数据的观察。*/
    val arr = res.collect();
    println("arr(0) is " + arr(0) + " arr(2) is " + arr(2) + " arr(4) is " + arr(4));
}
}