关于DS执行离线数仓工作流

最新推荐文章于 2025-08-04 18:50:55 发布

青云游子

最新推荐文章于 2025-08-04 18:50:55 发布

阅读量185

点赞数

CC 4.0 BY-SA版权

分类专栏： dolphinscheduler 文章标签：大数据 spark 分布式

本文链接：https://blog.youkuaiyun.com/qq_40382400/article/details/131085838

dolphinscheduler 专栏收录该内容

1 篇文章

订阅专栏

SQL查询在shell中执行，每个SQL对应一个YarnId。在Spark中，行动算子如insert触发job，job由多个stage组成，stage基于宽依赖划分，每个stage包含多个task处理分区数据。数据可能因分区不均导致倾斜。仅select会隐式插入insert，load操作不提交到Yarn，不生成YarnId。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

                    
                    每个SQL都写在一个shell里面，可以获取yarnId
对于spark，每个行动算子是一个job，每个job有多个stage(阶段)，每个阶段的划分依据是宽依赖，每个stage有多个task，一个task执行一个分区的计算，而分区是通过hash分区的，所以有可能每个分区的数据量不一样，也就是数据倾斜。
因为执行的SQL有insert，而insert是行动算子，所以会产生一个yarnId
如果没有insert，只有select，会自动补一个insert，所以会产生一个yarnId
当执行load等操作时，不会提交到yarn，不会产生yarnId