
Spark源码解析|如何成为一个committer
文章平均质量分 66
spark源码学习,努力成为一个spark committer!
且听_风吟
你还年轻,去爱去恨去相信,去追去梦去后悔。生命就该浪费在美好的事物上,还有资本,别怕失败。
展开
-
Spark优化
1、Spark调优背景目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。环境:服务器600+,spark 2.0.2,Hadoop 2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行,后一个的测试都...转载 2018-07-04 08:55:09 · 476 阅读 · 0 评论 -
Spark core知识点概要,脚本,小案例 ,java+scala Demo
并行------------- 集群计算。 并行计算。并发------------- 并发执行。 Spark------------------------ Lightning-fast cluster computing。 快如闪电的集群计算。 大规模快速通用的计算引擎。 速度: 比hadoop 100x,磁盘计算...原创 2018-07-19 19:12:13 · 466 阅读 · 0 评论 -
spark编译概要
前置要求:1)Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+2)export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"mvn编译命令:./build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4....原创 2018-07-22 12:14:11 · 351 阅读 · 0 评论 -
spark中saveAsTextFile如何最终生成一个文件
在默认的textfile中,如果从hdfs中读取文件,源码中默认的分区数是2,如果想改变分区数,可以在textfile中设置第二个参数“分区数”一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00000一直到part-0000n,n自然就是task的个数,亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件,而不是成百上千个文件了? ...原创 2018-08-09 19:50:10 · 9801 阅读 · 2 评论 -
spark mapPartition方法与map方法的区别
rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。 两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。 假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函数会被调用10次;而使用mapPartitions方法的话,其输入函数会只会被调用...原创 2018-08-09 19:58:41 · 1487 阅读 · 0 评论 -
Kafka总结
一、本质一种分布式的、基于发布/订阅的消息系统 二、Kafka的特点– 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化– 高吞吐量:每秒百万级的消息读写– 分布式:扩展能力强– 多客户端支持:java、php、python、c++ ……– 实时性:生产者生产的message立即被消费者可见 三、Kafka架构3.1 Broker(中介)• 每...原创 2018-08-16 16:53:43 · 815 阅读 · 0 评论 -
Spark Streaming总结
一、本质Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理二、Spark Streaming和Spark Core2.1 逻辑关系:2.2 物理关系:1) DStream:Spark Streaming提供了表示连续数据流的、高度抽象的被称为离散流的DStream2) 任何对DStream的操作都会转变...原创 2018-08-17 09:58:32 · 2175 阅读 · 0 评论