Spark的ReduceByKey方法使用问题

ample笔记

于 2020-09-04 15:05:38 发布

阅读量951

点赞数 1

分类专栏： Spark Scala

本文链接：https://blog.youkuaiyun.com/qq_41240580/article/details/108404326

版权

Scala 同时被 2 个专栏收录

6 篇文章

订阅专栏

Spark

2 篇文章

订阅专栏

本文详细探讨了Spark中的ReduceByKey操作，该操作用于对分布式数据集进行聚合。通过实例，我们展示了如何使用ReduceByKey将键值对数据进行内部聚合，减少网络传输并优化内存使用。理解这一核心Transformation对于提升Spark应用的性能至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark的reduceByKey使用时注意：如果key值是唯一的，那么value值就会原样输出。
reduceByKey是基于combineByKey，如果key值唯一，就不会执行merge步骤，也就不会执行reduceByKey方法体。
代码实例：

object Test {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    val sc = new SparkContext(conf)
    val rdd = sc.parallelize(
        List(
            (("10001085", "51"), List(6,5,4)),
            (("10001085", "51"), List(5,4,3)),
            (("10001085", "51"), List(4,3,2)),
            (("10001085", "01"), List(3,2,1))))
//    val ret = rdd.reduceByKey((x,y) => { 
//      var xx = 0
//      for(i <- x) {
//         xx += i
//      }
//      for(i2 <- y) {
//         xx += i2
//      }
//      println("zzzzzzzzz" + xx)
//      List(xx)
//    })
//重写createCombiner方法,可以解决key唯一而value不处理的问题
    val ret = rdd.combineByKey(
        //createCombiner
        (v: List[Int]) => {var ii = 0;for(i <- v){ii += i};  ii + "-" }, 
        //mergeValue
        (c: String, v: List[Int]) => {var ii = 0;for(i <- v){ii += i};  ii + "@" + c }, 
        //mergeCombiners
        (c1: String, c2: String) => c1 + "$" + c2
        )
    val array = ret.collect()
    for(a <- array){
      println(a._1, a._2)
    }
  }
}