cogroup和groupByKey区别

红烛暗盗梦

于 2023-07-31 10:39:13 发布

阅读量201

点赞数

文章标签： spark

本文链接：https://blog.youkuaiyun.com/laidongxu666/article/details/132017597

版权

文章详细介绍了ApacheSpark中的cogroup和groupByKey操作。cogroup用于将两个RDD中相同键的值组合成迭代器对，而groupByKey则是将一个RDD中相同键的值聚合为一个迭代器。两者的应用场景和结果形式有所不同，cogroup适用于需要处理来自多个源的数据，而groupByKey则更专注于单个数据源的键值聚合。此外，文章还提到了groupBy的灵活性以及reduceByKey的功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

6. cogroup和groupByKey区别
6.1 cogroup()
同一个rdd中, 相同k的value迭代组成迭代器k,(Iterator[v],Iterator[w])
依赖于两个rdd
举例: rdd.cogroup(rdd2)

val rdd9: RDD[(String, Any)] = sc.parallelize(List((“tom”, “aa”),(“tom”, 1), (“tom”, “bb”),(“jerry”, 3), (“kitty”, 2)))
val rdd10 = sc.parallelize(List((“jerry”, 2), (“tom”, 1), (“shuke”, 2)))
val cogroup: RDD[(String, (Iterable[Any], Iterable[Int]))] = rdd9.cogroup(rdd10)

val c9: Array[(String, (Iterable[Any], Iterable[Int]))] = cogroup.collect()
//结果
ArrayBuffer((tom,(CompactBuffer(aa, 1, bb),CompactBuffer(1))), (jerry,(CompactBuffer(3),CompactBuffer(2))), (shuke,(CompactBuffer(),CompactBuffer(2))), (kitty,(CompactBuffer(2),CompactBuffer())))

6.2 groupByKey()
不依赖多个RDD,一个rdd执行起来的算子
求一个集合的相同k合并后的value, shuffle阶段, 得到的value是迭代器 rdd.groupByKey()得到的是 Array(k, Iterator[v])

val rdd7: RDD[(String, Any)] = sc.parallelize(List((“tom”, “aa”),(“tom”, 1), (“tom”, “bb”),(“jerry”, 3), (“kitty”, 2)))
val key: RDD[(String, Iterable[Any])] = rdd7.groupByKey()
val c77: Array[(String, Iterable[Any])] = key.collect()
//结果
ArrayBuffer((tom,CompactBuffer(aa, 1, bb)), (jerry,CompactBuffer(3)), (kitty,CompactBuffer(2)))

7. groupBy(): Iterator(k,v) VS groupByKey(): Iterator[v]

groupBy()更加灵活返回的是 k, Iterator(k,v)

ArrayBuffer((tom,CompactBuffer((tom,aa), (tom,1), (tom,bb))), (jerry,CompactBuffer((jerry,3))), (kitty,CompactBuffer((kitty,2))))

ReduceByKey 按照相同的key进行分组聚合，聚合的运算逻辑由你写