- 博客(3)
- 收藏
- 关注
原创 Spark数据倾斜
数据倾斜的表现: 1、spark大部分task都执行迅速,只有有限的几个task执行的非常慢。 2、spark作业大部分task都执行迅速,有的task在运行过程中突然报OOM。 定位数据倾斜的问题: 1、查阅代码中的shuffle算子,如reduceBykey、countByKey、join等算子,根据代码逻辑判断此处是否出现数据倾斜。 2、查看spark作业的log日志,log文件对于错误的记录会精确到某一行,可以根据异常定位到代码位置来明确错误发生在第几个stage,对于的shuffle算子是哪一个。
2020-12-17 11:21:21
123
原创 Spark性能调优
1.1 常规性能调优 1.1.1 最优资源配置 性能调优的第一步应该是为任务分配更多的资源,在一定范围内,增加资源与提升性能成正比。 spark提交任务的脚本示例 ./spark-submit \ --master yarn-cluster --class com.dtyunxi.spark.WordCount \ --num-executors 80 --executor-cores 4 --executor-memory 8g --driver-memory 8g --queue root.defau
2020-12-16 21:27:55
173
原创 scala数据类型
scala数据类型 整数类型 Byte (1)自动提升原则:有多种类型的数据混合运算时,系统首先自动将所有数据转换成精度大的那种数据类型,然后再进行计算。 (2)把精度大的数值类型赋值给精度小的数值类型时,就会报错,反之就会进行自动类型转换。 (3)(byte,short)和char之间不会相互自动转换。 (4)byte,short,char他们三者可以计算,在计算时首先转换为int类型。 Short Int Scala程序中变量常声明为Int型,除非不足以表示大数,才使用Long Long Scala的整
2020-12-15 18:42:32
125
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人