Spark
Hello stupid
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkShuffle文件寻址以及Executor的内存管理
SparkShuffle文件寻址 在说文件寻址的时候先介绍下面几个对象 MapOutPutTracker:管理磁盘文件的对象 , MapOutPutTrackerMaster MapOutPutTrackerWorker BlockManager:块管理 BlockManagerMaster: DiskStore:管理磁盘文件 MemoryStore:管理内存数据 BlockTransf...原创 2019-11-14 09:43:30 · 360 阅读 · 0 评论 -
SparkSortShuffle
在Spark2.3中已经没有HashShuffle了,只存在SortShuffle。 流程: 一个task会先写往一个5M的内存缓冲区 会有一个估算机制,假如下次写入需要5.2的内存,那么他会申请 2*估算-当前+当前 也就是这块内存会变为10.4 当mapTask申请不到内存的时候,就会易写磁盘 在易写之前内存结构中的数据会进行排序分区,写入一个内存缓冲,一个batch一写,默认是1万条,形...原创 2019-11-14 08:38:40 · 279 阅读 · 0 评论 -
Spark调优
SparkShuffle 调优 程序调优; 首先,尽量减少 shuffle 次数; //两次 shuffle rdd.map().repartition(1000).reduceByKey(+,3000) //一次 shuffle Rdd.map().repartition(3000).reduceByKey(+) 然后必要时主动 shuffle,通常用于改变并行度,提高后续分布式运行速度; r...原创 2019-11-14 00:15:21 · 247 阅读 · 0 评论
分享