SparkRDD中的combineByKey代入实际数据详解

最新推荐文章于 2024-11-18 10:40:04 发布

原创最新推荐文章于 2024-11-18 10:40:04 发布 · 212 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #scala

spark碰到的一个核心高级函数，诸如groupByKey，reduceByKey等都是由它实现的，所以确实需要着重理解。

下面将一步一步尽可能用通俗语言解释combineByKey函数的生成过程，并举一个平均值的例子进行演示。如果步骤有误，欢迎指正

val test = sc.parallelize(List(('A', 1), ('B', 2), ('A', 2), ('A', 3)))
val cbk_test = test.combineByKey(
    | count => (count, 1),
    | (acc:(Int, Int), count) => (acc._1+count, acc._2+1),
    | (acc1:(Int, Int), acc2:(Int, Int)) => (acc1._1+acc2._1, acc1._2+acc2._2))
cbk_test.map(x=>(x._1, x._2._1.toDouble/x._2._2)).collect

以上的代码返回的是每个键的平均值的Array

res0: Array[(string, Double)] = Array(('A', 1.5), ('B', 2.5))

下面我们来详细演示一下这个过程：

第一段代码创建了一个名为test的包含元组的RDD，每个元组由一个字符串和一个整数构成

第二段代码：对combineByKey方法调用，作用于test RDD

第一行：createCombiner方法（初始化方法），在新遇到的键时，赋予一个初始值，否则执行第二步mergeValue方法（合并方法）

第二行：mergeValue方法，对于已经出现过的键（已经初始化过的），调用该方法聚合，对该键的当前值与新值进行合并

第三行：mergeConbiner方法，因为每个元组都是独立处理的，所以同一个键可以计量多次，如果有两个或者更多的分区都对应同一个键，就需要该方法将各个分区的结果进行合并。

下面我们一步一步来演示

1.首先test第一个元素输入，将键值对中的值隐式传递到count中，通过函数将count变成(count, 1)的元组完成初始化。通俗来说，就是当('A', 1)输入时，检测到新键A，进行初始化。

此时（count, 1）变成（1,1），前面是该新键的值，后面是初始化的计数值

由于A是第一次出现，所以不调用mergeValue方法，又因为目前只有一个分区对应A键，所以不调用mergeConbiner方法。