对combineByKey的理解,aggregateByKey

最新推荐文章于 2025-08-26 14:42:50 发布

原创

最新推荐文章于 2025-08-26 14:42:50 发布 · 1.4k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#combineByKey #aggregateByKey

本文详细解析了Spark中的combineByKey与aggregateByKey函数的工作原理，包括参数解释、操作流程及应用场景。通过实例展示了如何使用这两个函数处理pair RDD，实现如求均值、最大值等复杂操作。

参数：(createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)
1.作用：对相同K，把V合并成一个集合。
2.参数描述：

（1）createCombiner:

combineByKey() 会遍历分区中的所有元素，因此每个元素的键要么还没有遇到过，要么就和之前的某个元素的键相同。如果这是一个新的元素,combineByKey()会使用一个叫作createCombiner()的函数来创建那个键对应的累加器的初始值

（2）mergeValue:

如果这是一个在处理当前分区之前已经遇到的键，它会使用mergeValue()方法将该键的累加器对应的当前值与这个新的值进行合并

（3）mergeCombiners:

由于每个分区都是独立处理的，因此对于同一个键可以有多个累加器。如果有两个或者更多的分区都有对应同一个键的累加器，就需要使用用户提供的 mergeCombiners() 方法将各个分区的结果进行合并。

3.需求：创建一个pairRDD，根据key计算每种key的均值。（先计算每个key出现的次数以及可以对应值的总和，再相除得到结果）
4.需求分析：
在这里插入图片描述

（1）创建一个pairRDD
scala> val input = 
sc.parallelize(Array(("a", 88), ("b", 95), ("a", 91), ("b", 93), ("a", 95), ("b", 98)),2)

input: org.apache.spark.rdd.RDD[(String, Int)] = 
ParallelCollectionRDD[52] at parallelize at <console>:26


（2）将相同key对应的值相加，同时记录该key出现的次数，放入一个二元组
scala> val combine = input.combineByKey((_,1),(acc:(Int,Int),v)=>(acc._1+v,acc._2+1),