
spark
逆行时针
这个作者很懒,什么都没留下…
展开
-
Spark任务数据倾斜处理
现象:同一个stage中大部分task执行很快少数几个很慢,原本正常的任务,突然OOM,也i可能是数据倾斜。定位:代码中有shuffle算子,根据慢的task定位stage找到对应的shuffle算子解决方法:对数据进行ETL预处理(Hive表有倾斜) 过滤少数没有意义的倾斜的key(可以通过sample算子抽样动态判断) 提高shuffle的并行度(reduceBykey指定分区...原创 2020-03-28 23:12:29 · 360 阅读 · 0 评论 -
Spark的四种Shuffle
未经优化的HashShuffle上游stage的task对相同的key执行hash算法,从而将相同的key写到一个磁盘文件中,而每个磁盘文件都只属于下游stage的一个task,这就导致了下游有几个task上有就要创建多少个磁盘小文件,当下游的task任务过多的时候,上游就会堆积磁盘小文件优化的HashShufflespark.shuffle.consolidateFiles=tru...原创 2020-03-27 16:42:14 · 1298 阅读 · 0 评论 -
Spark任务提交流程
standalone模式spark-submit提交程序后,dirver和application向master注册 创建SparkContext对象,其中包含DAGScheduler和TaskScheduler driver把application信息注册给master后,master会根据App信息去worker节点起executor executor内部会创建运行Task的线程池,然...原创 2020-03-27 16:04:49 · 248 阅读 · 0 评论