Spark学习烦躁之旅
1.什么是Sparkspark是一个集群运算框架,因为使用了内存运算和DAG优化使的其运算速度大大的加快。使用spark需要搭配集群管理员和分布式文件存储系统。2.hadoop map reduce shuffle一般的shuffle分为两个阶段map和reduce,其中map阶段负责准备数据,reduce阶段使用数据。我们简单描述一下下图的流程,map:首先从HDSF(假设)文件系统中读取到数据,并且进行split切分。对每一块切分后的数据进行map相关操作,map处理后的数据会写入到缓存区。
原创
2020-11-02 21:37:40 ·
360 阅读 ·
0 评论