
Spark
Hello stupid
这个作者很懒,什么都没留下…
展开
-
SparkShuffle文件寻址以及Executor的内存管理
SparkShuffle文件寻址在说文件寻址的时候先介绍下面几个对象MapOutPutTracker:管理磁盘文件的对象 , MapOutPutTrackerMasterMapOutPutTrackerWorkerBlockManager:块管理BlockManagerMaster:DiskStore:管理磁盘文件MemoryStore:管理内存数据BlockTransf...原创 2019-11-14 09:43:30 · 314 阅读 · 0 评论 -
SparkSortShuffle
在Spark2.3中已经没有HashShuffle了,只存在SortShuffle。流程: 一个task会先写往一个5M的内存缓冲区会有一个估算机制,假如下次写入需要5.2的内存,那么他会申请 2*估算-当前+当前 也就是这块内存会变为10.4 当mapTask申请不到内存的时候,就会易写磁盘在易写之前内存结构中的数据会进行排序分区,写入一个内存缓冲,一个batch一写,默认是1万条,形...原创 2019-11-14 08:38:40 · 242 阅读 · 0 评论 -
Spark调优
SparkShuffle 调优程序调优; 首先,尽量减少 shuffle 次数; //两次 shuffle rdd.map().repartition(1000).reduceByKey(+,3000) //一次 shuffleRdd.map().repartition(3000).reduceByKey(+) 然后必要时主动shuffle,通常用于改变并行度,提高后续分布式运行速度;r...原创 2019-11-14 00:15:21 · 210 阅读 · 0 评论