vikibin-优快云博客

原创 Spark数据倾斜

数据倾斜的表现： 1、spark大部分task都执行迅速，只有有限的几个task执行的非常慢。 2、spark作业大部分task都执行迅速，有的task在运行过程中突然报OOM。定位数据倾斜的问题： 1、查阅代码中的shuffle算子，如reduceBykey、countByKey、join等算子，根据代码逻辑判断此处是否出现数据倾斜。 2、查看spark作业的log日志，log文件对于错误的记录会精确到某一行，可以根据异常定位到代码位置来明确错误发生在第几个stage，对于的shuffle算子是哪一个。

2020-12-17 11:21:21 123

原创 Spark性能调优

1.1 常规性能调优 1.1.1 最优资源配置性能调优的第一步应该是为任务分配更多的资源，在一定范围内，增加资源与提升性能成正比。 spark提交任务的脚本示例 ./spark-submit \ --master yarn-cluster --class com.dtyunxi.spark.WordCount \ --num-executors 80 --executor-cores 4 --executor-memory 8g --driver-memory 8g --queue root.defau

2020-12-16 21:27:55 173

原创 scala数据类型

scala数据类型整数类型 Byte （1）自动提升原则：有多种类型的数据混合运算时，系统首先自动将所有数据转换成精度大的那种数据类型，然后再进行计算。（2）把精度大的数值类型赋值给精度小的数值类型时，就会报错，反之就会进行自动类型转换。（3）（byte，short）和char之间不会相互自动转换。（4）byte，short，char他们三者可以计算，在计算时首先转换为int类型。 Short Int Scala程序中变量常声明为Int型，除非不足以表示大数，才使用Long Long Scala的整

2020-12-15 18:42:32 125

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人