Spark复习八：简述Spark运行流程以及Spark分区以及简述SparkContext

最新推荐文章于 2025-04-25 09:40:30 发布

IT change the world

最新推荐文章于 2025-04-25 09:40:30 发布

阅读量1.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark 大数据面试 hadoop zookeeper

本文链接：https://blog.youkuaiyun.com/csdnliu123/article/details/105605830

本文简要介绍了Spark的运行流程，从构建Spark Application环境到SparkContext申请Executor资源，再到DAG图的分解和Task的执行。同时，讨论了Spark分区的概念，包括文件分块、partition分区和shuffle分组。最后，阐述了SparkContext的角色，它是Spark应用的核心，负责创建RDD、累加器等，并与Spark执行环境建立连接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.简述Spark运行流程：

1.构建Spark Application的运行环境,启动SparkContext
2. SparkContext向资源管理器(可以是Standalone, Mesos, Yarm)申请运行Executor资源，并启动
StandaloneExecutorbackend
3. Executor向SparkContext申请Task
4. SparkContext将应用程序分发给Executor
5. SparkContext构建成DAG图,将DAG图分解成Stage、将Taskset发送给Task Scheduler,最后由Task Scheduler将Task发送
给Executor运行
6. Task在Executor上运行,运行完释放所有资源

2.简述Spark分区：