- 每个SQL都写在一个shell里面,可以获取yarnId
- 对于spark,每个行动算子是一个job,每个job有多个stage(阶段),每个阶段的划分依据是宽依赖,每个stage有多个task,一个task执行一个分区的计算,而分区是通过hash分区的,所以有可能每个分区的数据量不一样,也就是数据倾斜。
- 因为执行的SQL有insert,而insert是行动算子,所以会产生一个yarnId
- 如果没有insert,只有select,会自动补一个insert,所以会产生一个yarnId
- 当执行load等操作时,不会提交到yarn,不会产生yarnId
关于DS执行离线数仓工作流
最新推荐文章于 2025-08-04 18:50:55 发布