对DAG的粗略理解

最新推荐文章于 2025-07-25 11:20:31 发布

原创最新推荐文章于 2025-07-25 11:20:31 发布 · 465 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#DAG任务切割

本文深入探讨了Spark作业执行过程中的关键概念，包括job、RDD、shuffle依赖、narrow依赖及task的运行机制。阐述了从job提交到task执行的全过程，以及不同依赖类型对数据处理的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
当一个job提交后，最后一个RDD执行action算子从所有的父级依赖查找shuffle依赖，找到shuffle依赖后创建一个shuffle map stage，在stage中的必定是narrow依赖，narrow依赖中的是task任务，有多少个partition就有多少个task，多个task称作taskset任务集，一个任务集就是一个stage，task在进程上运行，运行完后释放所有资源。