1、Spark的由来
分布式计算的发展过程:
-
HPC:高性能计算
- 将一堆服务器的硬件放在一起构建计算
-
云计算:虚拟化技术
-
分布式计算平台:将CPU、内存、网络、磁盘通过分布式软件实现合并
||
硬件配置越来越高,价格越来越低
-
演变:不断的让数据价值最大化
- 第一代计算
- MapReduce:基于硬盘,适合于廉价的机器,硬件性能要求不高
- 分钟以上
- 第二代计算
- Impala/Presto/Spark:基于内存,对于硬件的要求比较高,主要是内存
- 分钟以内
- 第三代计算
- Flink:基于实时数据流的计算,对于硬件要求CPU、内存、IO都比较高
- 秒以内
2、Spark的诞生及发展
- MapReduce太慢了,开发者在考虑有没有什么替代MapReduce实现基于代码的分布式内存计算。
慢的原因:
基于磁盘:Map的输出会写入磁盘,Reduce会从磁盘中读取数据。
Shuffle:只要想聚合必然会经过shuffle,而且会排序、分区、分组。
解决方案:
基于内存,能不见过shuffle就不经过shuffle
- facebook:就

最低0.47元/天 解锁文章
996

被折叠的 条评论
为什么被折叠?



