
Spark
文章平均质量分 95
atwdy
大数据开发、数据挖掘
展开
-
面试系列之《Spark》(持续更新...)
根据分区之间是否产生shuffle来确定宽依赖:上游一个分区的数据被打散到下游的多个分区,1:N窄依赖:上游一个分区的数据全部进入到下游的一个分区,1:1 or N:1。原创 2024-02-19 20:25:44 · 1233 阅读 · 0 评论 -
spark中结合源码理解reduceByKey、groupByKey、combineByKey等几个ByKey算子的区别
1.上面这么多的…ByKey,其实最底层的就是combineByKey,这个方法中的三个参数所表示的含义:1.createCombiner:定义分区内第一条被处理的数据的转换规则2.mergeValue:定义各map分区内数据之间的计算规则。(发生在shuffle之前)3.mergeCombiners:定义不同的map分区之间的数据合并规则。原创 2023-09-23 20:25:35 · 865 阅读 · 0 评论