
spark
文章平均质量分 62
TaiKuLaHa
这个作者很懒,什么都没留下…
展开
-
资源超分是什么?
经常听到资源超分,但是具体指的什么还不清楚,哪里来的术语。原创 2023-09-19 14:53:06 · 1646 阅读 · 0 评论 -
【笔记】Spark3 AQE(Adaptive Query Execution)
不同于传统以整个执行计划为粒度进行调度的方式,AQE 会把执行计划基于 shuffle 划分成若干个子计划,每个子计划用一个新的叶子节点包裹起来,从而使得执行计划的调度粒度细化到 stage 级别 (stage 也是基于 shuffle 划分)。我们知道一般的 SQL 执行流程是,逻辑执行计划 -> 物理执行计划,而 AQE 的执行逻辑是,子物理执行计划 -> 父逻辑执行计划 -> 父物理执行计划,这样的执行流程提供了更多优化的空间。比如在对 Join 算子选择执行方式的时候可能有原来的。原创 2023-08-21 23:23:14 · 1101 阅读 · 1 评论 -
Spark Join
正是因为 NLJ 极低的执行效率,所以在它推出之后没多久之后,就有人用排序、归并的算法代替 NLJ 实现了数据关联,这种算法就是 SMJ。SMJ 的思路是先排序、再归并。具体来说,就是参与 Join 的两张表先分别按照 Join Key 做升序排序。然后,SMJ 会使用两个独立的游标对排好序的两张表完成归并关联。原创 2023-02-28 21:08:26 · 721 阅读 · 0 评论 -
Spark数据倾斜
里面提到了Map端 Join Reduce端的倾斜。原创 2023-01-02 22:36:34 · 543 阅读 · 0 评论 -
Spark Shuffle FetchFailedException报错解决方案
Spark Shuffle FetchFailedException原创 2022-06-13 23:05:55 · 2075 阅读 · 0 评论 -
Spark 内存管理
Spark的内存管理原创 2022-06-10 00:19:41 · 490 阅读 · 0 评论 -
Spark Partition方式
Spark 分区策略原创 2022-06-05 16:15:26 · 463 阅读 · 0 评论 -
Spark repartition
https://www.dazhuanlan.com/zara329308/topics/1405081在 Spark 的 Scala 版本的Dataset API 文档中, 我们可以看到下列跟 repartition 有关的 APIdef repartition(numPartitions: Int): Dataset[T]def repartition(partitionExprs: Column*): Dataset[T]def repartition(numPartitions: Int,转载 2022-01-12 09:54:08 · 873 阅读 · 0 评论