sparkSQL调优,sparkStreaming调优
- 问题分析:
主要考察的就是sparkSql以及sparkStreaming的调优问题。
- 核心答案讲解:
SparkSql调优
spark.hadoopRDD.ignoreEmptySplits
默认是false,如果是true,则会忽略那些空的splits,减小task的数量。
spark.hadoop.mapreduce.input.fileinputformat.split.minsize
是用于聚合input的小文件,用于控制每个mapTask的输入文件,防止小文件过多时候,产生太多的task.

本文详细探讨了SparkSQL和SparkStreaming的调优技巧,涉及参数如`ignoreEmptySplits`、`split.minsize`、`autoBroadcastJoinThreshold`等,以及使用Kryo序列化、内存管理、垃圾回收等优化手段。
最低0.47元/天 解锁文章

1441

被折叠的 条评论
为什么被折叠?



