spark中算子详解：combineByKey

最新推荐文章于 2022-10-31 20:25:11 发布

qq_28001193

最新推荐文章于 2022-10-31 20:25:11 发布

阅读量359

点赞数

分类专栏： spark 文章标签： spark

spark 专栏收录该内容

3 篇文章

订阅专栏

本文详细解析了Spark中combineByKey算子的工作原理及使用方法。该算子通过三个函数实现对RDD数据的分区处理与全局聚合，是Spark中较为底层且灵活的算子之一。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转自：http://blog.youkuaiyun.com/jiaotongqu6470/article/details/78458561

combineByKey是spark中更加底层，更加难理解，但却更灵活的一个算子

这个算子需要传入三个函数

第一个函数，是对每个分区的第一个值进行操作（这是本篇文章最重要的点）
第二个函数，是对每个分区进行操作
第三个函数，在第二个函数对每个分区操作产生结果后，对所有分区的结果进行聚合

下面是具体的例子

通过scala集合产生一个rdd

scala > val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8),2)
 
 1

scala > val rdd2  = rdd1.combineByKey(x => x+10,(a:Int,b:Int) => a+b,(m:Int,n:Int) => m+n)
 
 1

按照上面说的
x => x+10 是第一个函数
(a:Int,b:Int) => a+b 是第二个函数
(m:Int,n:Int) => m+n 是第三个函数

这个例子中，数据被放在两个分区中，

第一个分区中的数据是（1，2, 3, 4）

第2个分区中的数据是（5，6, 7, 8）

对第一个分区来说，第一个函数把 1 取出来，加上10，然后把结果 11 传到第二个函数中

(a:Int,b:Int) => a+b 是第二个函数

这时，a 接收到第一个函数传过来的 11

接着，把这个分区中 1 后面的那个元素，也就是 2 赋给 b ，两个相加后把结果 13 再赋给 a

一直重复上边的操作，直到这个分区中的最后一个元素被加完

这个时候，这个分区里面的所有数据都被加完

另一个分区也是同样的操作流程，两个分区的操作同时进行。

每个分区都操作完后，把计算结果传给第三个函数

在第三个函数中应该有一个类似数组的数据结构来保存第二个函数传过来的数据，因为可能有好多的分区。现在我们只有两个。

(m:Int,n:Int) => m+n 是第三个函数

这个函数去它维护的那个类似数组的数据结构中，取出第一个数据，赋给 m，

取出第二个数据，赋给 n

把m和n相加后的结果再赋值给m

取出第三个数据，赋给 n

重复执行上边的操作

完成全局求和功能。

博客等级

码龄10年

3
原创

9
点赞

21
收藏

4
粉丝

关注

私信

分类专栏

GO 1篇
spark 3篇
yarn 1篇
docker 1篇
java 1篇
jvm
mysql 2篇

最新评论

docker 中 /var/lib/docker 目录占很多空间
Super_wolve: 你好，我也是同样的原因，能问下怎么部署容器的时候进行日志关闭操作，让他只往日志文件中打印吗

最新文章

目录

目录

分类专栏

GO 1篇
spark 3篇
yarn 1篇
docker 1篇
java 1篇
jvm
mysql 2篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。