转自:http://blog.youkuaiyun.com/jiaotongqu6470/article/details/78458561
combineByKey是spark中更加底层,更加难理解,但却更灵活的一个算子
这个算子需要传入三个函数
第一个函数,是对每个分区的第一个值进行操作(这是本篇文章最重要的点)
第二个函数,是对每个分区进行操作
第三个函数,在第二个函数对每个分区操作产生结果后,对所有分区的结果进行聚合
下面是具体的例子
通过scala集合产生一个rdd
scala > val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8),2)
- 1
scala > val rdd2 = rdd1.combineByKey(x => x+10,(a:Int,b:Int) => a+b,(m:Int,n:Int) => m+n)
- 1
按照上面说的
x => x+10 是第一个函数
(a:Int,b:Int) => a+b 是第二个函数
(m:Int,n:Int) => m+n 是第三个函数
这个例子中,数据被放在两个分区中,
第一个分区中的数据是(1,2, 3, 4)
第2个分区中的数据是(5,6, 7, 8)
对第一个分区来说,第一个函数把 1 取出来,加上10,然后把结果 11 传到第二个函数中
(a:Int,b:Int) => a+b 是第二个函数
这时,a 接收到第一个函数传过来的 11
接着,把这个分区中 1 后面的那个元素,也就是 2 赋给 b ,两个相加后把结果 13 再赋给 a
一直重复上边的操作,直到这个分区中的最后一个元素被加完
这个时候,这个分区里面的所有数据都被加完
另一个分区也是同样的操作流程,两个分区的操作同时进行。
每个分区都操作完后,把计算结果传给第三个函数
在第三个函数中应该有一个类似数组的数据结构来保存第二个函数传过来的数据,因为可能有好多的分区。现在我们只有两个。
(m:Int,n:Int) => m+n 是第三个函数
这个函数去它维护的那个类似数组的数据结构中,取出第一个数据,赋给 m,
取出第二个数据,赋给 n
把m和n相加后的结果再赋值给m
取出第三个数据,赋给 n
重复执行上边的操作
完成全局求和功能。