combineByKey用法

本文深入解析了Spark中combineByKey函数的使用方法及其实现原理。通过实例演示了如何定义从原始格式V到新格式C的转换,以及如何指定C与V、C与C之间的聚合运算。适用于希望深入了解Spark数据处理机制的开发者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

combineByKey的意思就是定义一种新的符合格式,针对新的符合格式进行聚合预算。

首先看定义。

def combineByKey[C](
      createCombiner: V => C,
      mergeValue: (C, V) => C,
      mergeCombiners: (C, C) => C,
      partitioner: Partitioner,
      mapSideCombine: Boolean = true,
      serializer: Serializer = null)

 

combineByKey[C] 中C是我们想要统计的算子格式,而原始格式是V,需要把V变成C。

那么当进行聚合运算时,你得向spark解释两种情况:

C如何跟V进行meger计算?也就是新格式遇到老格式如何聚合运算。

C如何跟C进行meger计算?也就是新格式遇到新格式如何聚合运算。

combineByKey第一行定义了如何从V转换到C,而后面两行告诉spark,C格式如何与V格式聚合以及C格式如何与C格式聚合。

val initialScores = Array(("Fred", 88.0), ("Fred", 95.0), ("Fred", 91.0), ("Wilma", 93.0), ("Wilma", 95.0), ("Wilma", 98.0))
val d1 = sc.parallelize(initialScores)
d1.combineByKey(
  y => (1, y),//仅定义从老y向新y的映射方式,并没有定义如何聚合
  (newY: (Int, Double), y) => (newY._1 + 1, newY._2 + y),//新格式如何跟老格式聚合
  (newY: (Int, Double), anOtherNewY: (Int, Double)) => (newY._1 + anOtherNewY._1, newY._2 + anOtherNewY._2)//新格式如何跟新格式聚合
).map { case (name, (num, socre)) => (name, socre / num) }.collect//map之前的数据格式已经变成了(name, (num, socre))的格式,这是由y => (1, y)定义的。combineByKey中的后面两行仅仅定义聚合方式。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值