
spark
文章平均质量分 70
聆听金生
人生得意须尽欢,莫使空杯对笑谈!
展开
-
Spark的Shuffle算子与提交参数的优化配置
文章目录Shuffle类算子的使用广播变量Shuffle类算子去重聚合排序重分区集合或者表操作使用高性能的算子Spark-submit的参数调优Spark作业基本原理简介资源参数调优资源参数参考示例Shuffle类算子的使用如果有可能的话,要尽量避免使用shuffle类算子。因为Spark作业运行过程中,最消耗性能的地方就是shuffle过程。shuffle过程,简单来说,就是将分布在集群中多...原创 2020-05-06 10:06:05 · 530 阅读 · 0 评论 -
Spark Shuffle参数调优的原理与建议
文章目录Shuffle对性能消耗的原理详解Spark Shuffle过程中影响性能的操作:Spark 压缩算法的比较如何调优Spark配置参数的源码详解(Spark2.3)spark.shuffle.managerspark.reducer.maxReqsInFlight与spark.reducer.maxBlocksInFlightPerAddressspark.maxRemoteBlockSi...原创 2020-04-30 17:07:19 · 2716 阅读 · 1 评论 -
Spark Shuffle调优指南
文章目录Shuffle对性能消耗的原理详解Spark Shuffle过程中影响性能的操作:Spark 压缩算法的比较Shuffle调优指南系统架构无法避免Shuffle序列化底层释放能力JVM层Spark层面Shuffle对性能消耗的原理详解Spark Shuffle过程中影响性能的操作:磁盘I/O网络I/O压缩解压缩序列化反序列化调优是一个动态的过程,需要根据业务数据的特性...原创 2020-04-30 17:04:30 · 1250 阅读 · 0 评论 -
Spark 内存调优以及 JVM 调优
Spark 内存调优以及 JVM 调优目前Spark使用的内存管理模型有两个,分别是:StaticMemoryManagerUnifiedMemoryManager而StaticMemoryManager是1.6之前的版本使用的内存管理模型.UnifiedMemoryManager是1.6之后使用的内存管理模型.在SparkEvn中,通过spark.memory.useLegacyM...原创 2019-07-31 20:47:54 · 303 阅读 · 0 评论 -
Spark On yarn 执行流程图
此流程图简要的介绍了Spark On Yarn在执行过程中,相应参数的设置初始化资源的获取分配提交Container运行。其中涉及到Client与RM、AM与RM、AM与NM的通信。原创 2019-08-01 14:25:15 · 950 阅读 · 0 评论