Spark基础

最新推荐文章于 2025-12-15 16:59:52 发布

原创最新推荐文章于 2025-12-15 16:59:52 发布 · 413 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

本文详细解释了处理框架和计算引擎的概念，重点介绍了Spark作为内存计算引擎的特点，比较了MapReduce与Spark的区别，涵盖RDD、DAG、数据倾斜及其处理策略，并讨论了SparkMLlib与SparkML的差异以及Spark集群管理器的选择。

1、基本概念

1.1 什么是处理框架？

大多数情况我们将处理框架定义为**“一系列组件”**。其中包括负责数据存储的组件（Hdfs）、负载计算的组件（mapreduce-批处理计算引擎、spark-流处理计算引擎）、负责资源管理和任务调度的组件（Yarn）

Hadoop可以看做以Hdfs作为数据存储和以mapreduce作为计算引擎的批处理框架，如果将spark纳入Hadoop替换MapReduce计算引擎的话，这样就构成了流处理框架。

1.2 什么是计算引擎？处理框架和计算引擎是什么关系？

计算引擎属于处理框架的一部分，只负责数据的计算。

MapReduce是磁盘计算引擎，将中间结果保存到磁盘中，减少了内存占用，牺牲了计算性能。

Spark是内存计算引擎，将计算的中间结果保存到内存中，可以反复利用，提高了处理数据的性能。

2、Spark是什么

spark是一个可以快速处理数据的计算引擎，拥有mapreduce批计算引擎的所有优点，同时比mapreduce更好的是中间输出结果保存在内存中，不需要反复读写Hdfs，减少了I/O读写

3、MapReduce、Spark区别

MapReduce：从集群中读取数据，进行计算，得到中间结果并写入集群中，再从集群中读取中间结果进行下一次计算，如此循环直至处理完成将最终结果写入集群。

Spark：从内存中接近实时完成所有数据计算，从集群中读取数据，完成所有必须的分析处理，将结果写入集群。

4、Spark重要概念

4.1 RDD

4.1.1 含义

RDD，弹性分布式集群集，Resilient(弹性的) Distributed(分布式) Datasets(数据集）。

弹性：数据存储是弹性的，可存储在内存，也可存储在磁盘，可以自由切换存储的模式。优先存储在内存中的，如果存不下了，就写入到本地磁盘中，这叫做溢写，或者溢出。RDD中的partition大小不同，数量不定。

分布式：数据分布在集群的不同节点

4.1.2 包含内容

包含只读分区集合、对数据计算的函数、计算数据的位置、分区器、依赖的RDD信息

4.1.3 概念

本质上 RDD是不存数据的，存的是计算逻辑。移动数据不如移动计算。

有一个流水线工厂里面有工人RDD1、RDD2、RDD3，当一个工件下来的时候，RDD1做的是flatMap()加工，做完之后，被加工后的工件传到RDD2，然后RDD2做map()加工，之后再传给RDD3做一些其他加工。最后，直到工件加工完成出货为止。

注1：从前到后的加工顺序可以理解为 DAG有向无环图

RDD之间有两种依赖关系，窄依赖narrow dependence，宽依赖wide dependence。

窄依赖：父rdd的一个分区，只能被子rdd的一个分区使用宽依赖：父rdd的一个分区，可以被子rdd的多个分区使用。一般来说，窄依赖不会发生洗牌(shuller)，宽依赖会发生洗牌，shuller。

4.2 DAG

有向无环图，有方向，没有闭环。对比MapReduce，Spark支持DAG，能够缓存中间数据，减少数据落盘次数，不用频繁对磁盘进行IO操作

4.3 RDD与DAG的关系

多个RDD相连，最后RDD组成一个有向无环图（DAG）。

4.4 partition分区

4.4.1 概念

partition是RDD中最小单位。RDD由集群中各个节点的各个partition组成，同一个RDD中partition大小不一，不同RDD的partition数量也不同，根据application的算子和分布式文件存储系统读入的数块数量决定的

4.4.2 为什么分区

数据量大，将数据分配到多个partition能够提高并行度，提升处理速度

4.4.3 分区类型

HashPartitioner：通过Key计算出HashCode后跟分区数取余出来的数值决定分区。缺点：数据不均匀，容易造成数据倾斜，极端情况可能几个分区拥有RDD所有数据

RangePartitioner：对Key进行排序，将Key划分成分区数Key集合。特点：分区数据量均匀且分区之间有序。

CustomPartitioner：自定义分区，开发者自己定义规则

注：Spark默认分区数为Hdfs文件的块数blocks，如果我们上传一个30GB的非压缩的文件到HDFS，HDFS默认的块容量大小128MB，因此该文件在HDFS上会被分为235块(30GB/128MB)。 Spark读取SparkContext.textFile()读取该文件，默认分区数等于块数即235。