Spark rdd之aggregateByKey

文章目录

源码

对PairRDD中相同的Key值进行聚合操作,在聚合过程中同样使用了一个中立的初始值。和aggregate函数类似,aggregateByKey返回值的类型不需要和RDD中value的类型一致。因为aggregateByKey是对相同Key中的值进行聚合操作,所以aggregateByKey’函数最终返回的类型还是PairRDD,对应的结果是Key和聚合后的值,而aggregate函数直接返回的是非RDD的结果


  def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner)(
  	seqOp: (U, V) => U,//用于合并分区内的值
    combOp: (U, U) => U	//用于合并分区间的值
    ): RDD[(K, U)] = self.withScope {
    
    // 将zeroValue序列化为字节数组,以便我们可以在每个键上获得它的新克隆
    val zeroBuffer = SparkEnv.get.serializer.newInstance().serialize(zeroValue)
    val zeroArray = new Array[Byte](zeroBuffer.limit)
    zeroBuffer.get(zeroArray)

    lazy val cachedSerializer = SparkEnv.get.serializer.newInstance()
    val createZero = () => cachedSerializer.deserialize[U](ByteBuffer.wrap(zeroArray))

    // We will clean the combiner closure later in `combineByKey`
    val cleanedSeqOp = self.context.clean(seqOp)
    
    combineByKeyWithClassTag[U](
    (v: V) => cleanedSeqOp(createZero(), v),
      cleanedSeqOp, 
      combOp, 
      partitioner)
  }

主要代码: combineByKeyWithClassTag方法,传入的cleanedSeqOp方法(其实是用户传入的seqOp方法)作用是处理分区内的数据,发生在mapside,去处理zeroValue和value。而combOp作用是处理分区间的数据,发生在reduce阶段

关于zeroValue
根据代码可以看到将传入的zeroValue传入到cleanedSeqOp方法内,因此zeroValue仅作用于分区内,分区间是不起作用的

combineByKeyWithClassTag底层调用的是Aggregator方法,用法的话可以参考GroupByKey的实现,
链接:http://t.csdn.cn/OcAzT

示例

val rdd1: RDD[(String, Int)] = sc.parallelize(List(
      "spark", "hadoop", "hive", "spark",
      "spark", "flink", "hive", "spark",
      "kafka", "kafka", "kafka", "kafka",
      "hadoop", "flink", "hive", "flink"
    ),4).map((_, 1))
    
rdd1.aggregateByKey(10)(math.max,_+_)
      .mapPartitionsWithIndex((index,iter)=>{
        iter.map((index,_))
      }).foreach(println)
(2,(kafka,10))
(1,(spark,20))
(1,(hadoop,20))
(0,(hive,30))
(0,(flink,20))
  • 依“Spark”为例,解析下算子的运行轨迹
    在这里插入图片描述
使用Spark的算子aggregateByKey举例,可以参考以下代码: ```scala import org.apache.spark.{SparkConf, SparkContext} object Demo { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").setAppName("aa") val sc = new SparkContext(conf) // 创建一个包含键值对的列表 val list = List((1,2),(2,7),(1,3),(2,8),(3,9),(3,10),(1,4),(1,5),(2,6),(2,11),(3,12),(3,13)) // 将列表转化为RDD val listRDD = sc.parallelize(list,2) // 使用aggregateByKey算子计算每个键对应的最大值 val result = listRDD.aggregateByKey(0)( (a, b) => math.max(a, b), (x, y) => math.max(x, y) ) // 打印结果 result.collect().foreach(println) } } ``` 以上代码中,我们创建了一个包含键值对的列表,然后将其转化为RDD。接下来,使用aggregateByKey算子计算每个键对应的最大值。在seqOp函数中,我们比较当前值与累加器并返回较大的值。在combOp函数中,我们再次比较两个累加器的值并返回较大的值。最后,通过collect函数将结果打印出来。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [详解Spark核心算子 : aggregateByKey和combineByKey](https://blog.youkuaiyun.com/f_n_c_k/article/details/88718262)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值