
Spark
文章平均质量分 71
mo_yuanyy
博客内容为我在学习过程中的总结与归纳,如有错误,恳请指正,万分感谢!
展开
-
编译Spark2.4.2源码
Spark源码的编译,可以查阅下述文档来进行编译: http://spark.apache.org/docs/latest/building-spark.html 可从文档中得知,编译前置环境要求: 1.Maven 3.5.4+ 2.Java 8 在这里我们使用Spark 源码包 中 /dev/make-distribution.sh脚本进行源码编译,通过查看该脚本我们可以发现一些参数设置上的原由...原创 2019-04-28 13:24:56 · 731 阅读 · 0 评论 -
Spark1.6.0 HashShuffle shuffle write中间文件数目解析
之前已经知道HashShuffle会在ShuffleMapTask Stage进行如下操作 故对此进行实验 由于默认使用的shuffle方式是sort,故我们对shuffle的方式进行指定 注:HashShuffle在2.X版本被删除,这里使用的是spark1.6.0版本 先指定spark.local.dir目录 再指定spark.shuffle.manager=为shuffle [hadoop...原创 2019-05-26 22:01:41 · 499 阅读 · 0 评论 -
Spark kyro序列化测试
spark官网给出的几种调优点其中有一条是数据序列化 1.数据序列化,data serialization 1)java serialization(slow and large) 2)kyro serialization(qucikly compact) 注册使用,不注册性能相反 使用kryo的三种方式: 1)代码中增加conf.set("spark.serializer", "org.apac...原创 2019-05-21 17:37:06 · 549 阅读 · 0 评论