aggregate vs treeAggregate

最新推荐文章于 2021-02-27 00:04:53 发布

空中的鱼1987

最新推荐文章于 2021-02-27 00:04:53 发布

阅读量2.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： spark 协方差文章标签： spark

本文链接：https://blog.youkuaiyun.com/lookqlp/article/details/52121057

spark 同时被 2 个专栏收录

2 篇文章

订阅专栏

协方差

2 篇文章

订阅专栏

本文详细介绍了Scala中Aggregate和TreeAggregate函数的工作原理及其使用场景。通过具体的代码示例展示了如何利用这两个函数来高效地处理分布式数据集，特别强调了它们在减少数据传输量和提高并行处理效率方面的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

aggregate

aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U)

aggregate函数将每个分区进行seqOp,且从zeroValue开始遍历分区里的所有元素.然后用combOp,从zeroValue开始遍历所有分区的结果.

注意:每个partition的seqOp只应用一次zeroValue,最后的combOp也应用一次zeroValue.

例子:

scala> def seq(a:Int,b:Int):Int={
     | println("seq:"+a+":"+b)
     | math.min(a,b)}
seq: (a: Int, b: Int)Int

scala> def comb(a:Int,b:Int):Int={
     | println("comb:"+a+":"+b)
     | a+b}
comb: (a: Int, b: Int)Int

val z =sc.parallelize(List(1,2,4,5,8,9),3)
scala> z.aggregate(3)(seq,comb)
seq:3:4
seq:3:1
seq:1:2
seq:3:8
seq:3:5
seq:3:9
comb:3:1
comb:4:3
comb:7:3
res10: Int = 10

treeAggregate

treeAggregate[U: ClassTag](zeroValue: U)(
      seqOp: (U, T) => U,
      combOp: (U, U) => U,
      depth: Int = 2)

与aggregate不同的地方是:在每个分区,会做两次或者多次combOp,避免将所有局部的值传给driver端.另外,经过测验初始值zeroValue不会参与combOp.

例子:

scala> z.treeAggregate(3)(seq,comb)
seq:3:4
seq:3:5
seq:3:1
seq:1:2
seq:3:8
seq:3:9
comb:3:3
comb:6:1
res12: Int = 7

对比图:
aggregatevstreeaggregate
注释:
Aggregate

each executor holds a portion of learning set
broadcast model to excutors
collect results to driver

TreeAggregate

simple heuristic to add level
perform partial aggregation by shipping results to other executors(by repartitioning)