首先看一下WordCount代码:
val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[4]")
//创建spark执行的入口
val sc = new SparkContext(conf)
//指定以后从哪里读取数据创建RDD(弹性分布式数据集)
val lines:RDD[String]= sc.textFile(args(0))
//val lines: RDD[String] = sc.textFile("hdfs://L1:9000/aaa")
//切分压平
val words:RDD[String] = lines.flatMap(_.split(" "))
//将单词和1组合
val wordAndOne:RDD[(String,Int)] = words.map((_, 1))
//按Key进行聚合
val reduced:RDD[(String,Int)] = wordAndOne.reduceByKey(_+_)
//将结果保存到HDFS中
sorted.saveAsTextFile(args(1))
在一个统计词数的程序中,首先读取数据,在执行两次map操作,和一个reduce操作,最好保存结果,在这个过程中,一共生成了6个RDD
在读取数据的时候,生成了两个RDD,经过两次map,又生成了两个RDD,在reduce时生成了一个RDD,在执行saveAsTextFile时又生成了一个RDD
reduce时的过程也称为shuffle,一共有两个步骤,第一步是进行局部聚合,第二步是进行全局聚合
一个分区对应一个task(在同一个stage),一个分区对应的task只能在一台机器上(在executor中),一台机器上可以有多个分区对应的task
一共有两个阶段(stage),在shuffle时是一个分水岭,shuffle前的task称为shufflemaptask,shuffle后的task成为resulttask.所以,WordCount执行过程中,一共生成了2种task,4个task(因为本例中有两个分区)。