【Spark】spark使用aggregateByKey替代groupByKey

voidfaceless

于 2019-12-16 10:00:04 发布

阅读量375

点赞数

CC 4.0 BY-SA版权

分类专栏： spark

本文链接：https://blog.youkuaiyun.com/voidfaceless/article/details/103557558

spark 专栏收录该内容

11 篇文章

订阅专栏

本文详细介绍了Spark中aggregateByKey函数的使用方法，对比groupByKey，通过实例演示了如何利用aggregateByKey进行数据聚合，展示了其在大数据处理中的高效性和灵活性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark使用aggregateByKey替代groupByKey

使用aggregateByKey需要确定下面三个参数：

zeroValue ：初始值
seqOp : 对于key相同的元素的操作方法
combOp : 对于key不同的元素的操作方法

听起来很难懂，看个例子就明白了：

val data=List((1,3),(1,2),(1,4),(2,3))
val rdd=sc.parallelize(data )
//合并不同partition中的值，a，b得数据类型为zeroValue的数据类型
def combOp(a:List[Int],b:List[Int]):List[Int] ={
  a ++ b
}
def seqOp(a:List[Int],b:Int):List[Int]={
  a.::(b)
}

val aggregateByKeyRDD=rdd.aggregateByKey(List(0))(seqOp, combOp)
aggregateByKeyRDD.foreach(println)
val groupbykeyRDD=rdd.groupByKey()
groupbykeyRDD.foreach(println)

输出结果为：

(1,List(4, 2, 3, 0))
(2,List(3, 0))
(1,CompactBuffer(3, 2, 4))
(2,CompactBuffer(3))