combineByKey的意思就是定义一种新的符合格式,针对新的符合格式进行聚合预算。
首先看定义。
def combineByKey[C](
createCombiner: V => C,
mergeValue: (C, V) => C,
mergeCombiners: (C, C) => C,
partitioner: Partitioner,
mapSideCombine: Boolean = true,
serializer: Serializer = null)
combineByKey[C] 中C是我们想要统计的算子格式,而原始格式是V,需要把V变成C。
那么当进行聚合运算时,你得向spark解释两种情况:
C如何跟V进行meger计算?也就是新格式遇到老格式如何聚合运算。
C如何跟C进行meger计算?也就是新格式遇到新格式如何聚合运算。
combineByKey第一行定义了如何从V转换到C,而后面两行告诉spark,C格式如何与V格式聚合以及C格式如何与C格式聚合。
val initialScores = Array(("Fred", 88.0), ("Fred", 95.0), ("Fred", 91.0), ("Wilma", 93.0), ("Wilma", 95.0), ("Wilma", 98.0))
val d1 = sc.parallelize(initialScores)
d1.combineByKey(
y => (1, y),//仅定义从老y向新y的映射方式,并没有定义如何聚合
(newY: (Int, Double), y) => (newY._1 + 1, newY._2 + y),//新格式如何跟老格式聚合
(newY: (Int, Double), anOtherNewY: (Int, Double)) => (newY._1 + anOtherNewY._1, newY._2 + anOtherNewY._2)//新格式如何跟新格式聚合
).map { case (name, (num, socre)) => (name, socre / num) }.collect//map之前的数据格式已经变成了(name, (num, socre))的格式,这是由y => (1, y)定义的。combineByKey中的后面两行仅仅定义聚合方式。