sparkRDD高级算子 combineByKey函数详解

最新推荐文章于 2024-04-21 14:28:25 发布

原创最新推荐文章于 2024-04-21 14:28:25 发布 · 750 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #rdd #combineByKey

spark 专栏收录该内容

3 篇文章

订阅专栏

本文详细解析了Spark中combineByKey函数的使用方法，并通过两个具体示例进行说明：一是实现wordCount，二是将数组中的特定数值归类到不同的集合中。

spark中高级算子：combineByKey函数详解

combineByKey函数源码如下：

  def combineByKey[C](
      createCombiner: V => C,        //当前值作为参数，可被认为初始化操作
      mergeValue: (C, V) => C,       //在分区中操作，把当前的元素V合并到上次结果的C中
      mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {    //把每个分区的结果进行最终的计算
    combineByKeyWithClassTag(createCombiner, mergeValue, mergeCombiners)(null)
  }

以下两个示例来讲解combineByKey函数：

示例1：实现wordCount

   val conf = new SparkConf().setAppName("combineByKey")
   conf.setMaster("local")
   val sc = new SparkContext(conf)
   //读取hdfs文件并创建rdd对象 hello.txt文件如下：
   val rdd = sc.textFile("hdfs://master:9000/user/hadoop/spark/xxx.txt")
   val result = rdd.flatMap(_.split(" ")).map((_,1)).combineByKey(x=>x,(m:Int,n:Int)=>(m+n),(a:Int,b:Int)=>(a+b)).collect
   println(result.toBuffer)

执行结果如下：

(m:Int,n:Int) => (m+n)是对每个分区中元素进行的操作，(a:Int,b:Int) => a+b 得到每个分区的结果进行最后的累加。

示例2：将数组中的1的放入一个集合中，2的放到一个集合中

  利用并行化方式创建rdd
  val rdd2 = sc.parallelize(Array((1, "dog"), (2, "gnu"), (2, "salmon"), (2, "rubbit"), (1, "turkey"), (2, "wolf"), (2, "bear"), (2, "bee")), 3)
  val result2 = rdd2.combineByKey(List(_),(m:List[String],n:String)=>m:+n,(a:List[String],b:List[String])=>a:::b).collect()
  println(result2.toBuffer)

执行结果如下：