spark--WordCount执行过程详解

博客介绍了WordCount代码执行过程。先读取数据,经两次map和一次reduce操作后保存结果,此过程共生成6个RDD。reduce过程即shuffle,分局部和全局聚合两步。一个分区对应一个task,有两个阶段,共生成2种、4个task。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先看一下WordCount代码:

val conf = new SparkConf().setAppName("ScalaWordCount").setMaster("local[4]")
    //创建spark执行的入口
    val sc = new SparkContext(conf)
    //指定以后从哪里读取数据创建RDD(弹性分布式数据集)
    val lines:RDD[String]= sc.textFile(args(0))
    //val lines: RDD[String] = sc.textFile("hdfs://L1:9000/aaa")
    //切分压平
    val words:RDD[String] = lines.flatMap(_.split(" "))
    //将单词和1组合
    val wordAndOne:RDD[(String,Int)] = words.map((_, 1))
    //按Key进行聚合
    val reduced:RDD[(String,Int)] = wordAndOne.reduceByKey(_+_)
    //将结果保存到HDFS中
    sorted.saveAsTextFile(args(1))

在一个统计词数的程序中,首先读取数据,在执行两次map操作,和一个reduce操作,最好保存结果,在这个过程中,一共生成了6个RDD
在这里插入图片描述

在读取数据的时候,生成了两个RDD,经过两次map,又生成了两个RDD,在reduce时生成了一个RDD,在执行saveAsTextFile时又生成了一个RDD

reduce时的过程也称为shuffle,一共有两个步骤,第一步是进行局部聚合,第二步是进行全局聚合

一个分区对应一个task(在同一个stage),一个分区对应的task只能在一台机器上(在executor中),一台机器上可以有多个分区对应的task

一共有两个阶段(stage),在shuffle时是一个分水岭,shuffle前的task称为shufflemaptask,shuffle后的task成为resulttask.所以,WordCount执行过程中,一共生成了2种task,4个task(因为本例中有两个分区)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值