combineByKey用法

最新推荐文章于 2024-11-18 10:40:04 发布

原创最新推荐文章于 2024-11-18 10:40:04 发布 · 834 阅读

2 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

4 篇文章

订阅专栏

本文深入解析了Spark中combineByKey函数的使用方法及其实现原理。通过实例演示了如何定义从原始格式V到新格式C的转换，以及如何指定C与V、C与C之间的聚合运算。适用于希望深入了解Spark数据处理机制的开发者。

combineByKey的意思就是定义一种新的符合格式，针对新的符合格式进行聚合预算。

首先看定义。

def combineByKey[C](
createCombiner: V => C,
mergeValue: (C, V) => C,
mergeCombiners: (C, C) => C,
partitioner: Partitioner,
mapSideCombine: Boolean = true,
serializer: Serializer = null)

combineByKey[C] 中C是我们想要统计的算子格式，而原始格式是V，需要把V变成C。

那么当进行聚合运算时，你得向spark解释两种情况：

C如何跟V进行meger计算？也就是新格式遇到老格式如何聚合运算。

C如何跟C进行meger计算？也就是新格式遇到新格式如何聚合运算。

combineByKey第一行定义了如何从V转换到C，而后面两行告诉spark，C格式如何与V格式聚合以及C格式如何与C格式聚合。

val initialScores = Array(("Fred", 88.0), ("Fred", 95.0), ("Fred", 91.0), ("Wilma", 93.0), ("Wilma", 95.0), ("Wilma", 98.0))
val d1 = sc.parallelize(initialScores)
d1.combineByKey(
y => (1, y),//仅定义从老y向新y的映射方式，并没有定义如何聚合
(newY: (Int, Double), y) => (newY._1 + 1, newY._2 + y),//新格式如何跟老格式聚合
(newY: (Int, Double), anOtherNewY: (Int, Double)) => (newY._1 + anOtherNewY._1, newY._2 + anOtherNewY._2)//新格式如何跟新格式聚合
).map { case (name, (num, socre)) => (name, socre / num) }.collect//map之前的数据格式已经变成了(name, (num, socre))的格式，这是由y => (1, y)定义的。combineByKey中的后面两行仅仅定义聚合方式。