spark源码系列03-任务提交01

最新推荐文章于 2023-11-27 23:47:23 发布

李孟聊人工智能

最新推荐文章于 2023-11-27 23:47:23 发布

阅读量766

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark实战文章标签： spark

本文为博主（李孟）原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/qq_19968255/article/details/82803794

Spark实战专栏收录该内容

25 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文详细介绍了Spark任务提交的流程，从`saveAsTextFile`开始，深入源码，讲解了如何通过`saveAsHadoopFile`设置HDFS参数，到`DAGScheduler`中切分Stage并提交Job。文章涵盖了`SparkContext.runJob`、`DAGScheduler`的`runJob`、`submitJob`等关键步骤，以及Stage创建和宽依赖处理的过程。

用spark版本1.3+

val conf=new SparkConf().setAppName("WordCount")

val sc=new SparkContext(conf)

//构建RDD并调用Transformation

//textFile创建一个hadoopRdd，产生一个MapPartitionsRDD

//flatMap 产生一个MapPartitionsRDD

// map 产生一个MapPartitionsRDD

// reduceByKey 产生一个ShuffledRDD 宽依赖

// saveAsTextFile 产生一个MapPartitionsRDD

// 切分stage 记住最后个rdd 从后往前推

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

李孟聊人工智能 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。