
Spark
文章平均质量分 79
shenlanlan2
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark工作模式与RDD
一 Spark工作模式 Spark引擎提供了在集群中所有主机上进行分布式内存数据处理的能力,下图显示了一个典型Spark job的处理流程。 下图显示了Apache Spark如何在集群中执行一个作业。 Master控制数据如何被分割,利用了数据本地性,并在Slaves上跟踪所有分布式计算。在某个Slave不可用时,其存储的数据会分配给其他可用的Slaves。虽然当转载 2015-07-24 15:29:28 · 510 阅读 · 0 评论 -
RDD的原理
RDD简述 (简单介绍一下DPark的特点、优缺点,适用范围,和其他一些计算框架比较等) DPark是Spark的Python实现版本,所以其具有与Spark相同的优缺点以及适用范围,这里只做简单介绍,详细可以参考Spark官方网站。 Spark最核心的概念是RDD,近年来,有关集群运算的编程框架和模型例如MapReduce, Dryad等正在被大量运用于处理不断增长的数据量,这些系统具有容错、转载 2015-09-29 11:46:19 · 948 阅读 · 0 评论 -
Spark的Shuffle机制
MapReduce中的Shuffle机制 在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。 Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Redu转载 2015-09-29 16:23:10 · 388 阅读 · 0 评论 -
spark任务调度
spark任务调度机制尝试利用RDD的特性来为所有的操作找到一种最有效的执行策略,任务调度器有一个runJob的接口提供给RDD使用,它接受的参数包括RDD本身,感兴趣的数据块部分以及应用于数据块之上的函数。当RDD需要执行一个操作(count, collect, saveAsTextFile, etc)的时候,就会调用runJob函数来在集群之上进行计算。 总体上来说,DPark的任务调度器和D原创 2015-09-29 13:19:52 · 526 阅读 · 0 评论