
Spark
文章平均质量分 90
袁晓俊
这个作者很懒,什么都没留下…
展开
-
Spark Shuffle内存分析
分布式系统里的Shuffle 阶段往往是非常复杂的,而且分支条件也多,我只能按着我关注的线去描述。肯定会有不少谬误之处,我会根据自己理解的深入,不断更新这篇文章。前言用Spark写程序,一个比较蛋疼的地方就是OOM,或者GC严重,导致程序响应缓慢,一般这种情况都会出现在Shuffle阶段。Shuffle 是一个很复杂的过程,任何一个环节都足够写一篇文章。所以这里,我尝试换个方式,从实用的角度出发,让原创 2015-12-19 22:25:23 · 883 阅读 · 0 评论 -
对比 Hadoop MapReduce 和 Spark 的 Shuffle 过程
上一章里讨论了 job 的物理执行图,也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的,同时也分析了 task 是怎么产生 result,以及 result 怎么被收集后计算出最终结果的。然而,我们还没有讨论数据是怎么通过 ShuffleDependency 流向下一个 stage 的? 对比 Hadoop MapReduce 和 Spark 的 S原创 2015-12-19 22:37:03 · 2835 阅读 · 0 评论 -
详细探究Spark的shuffle实现
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop MapRedu原创 2015-12-19 23:06:48 · 530 阅读 · 0 评论