1. Spark中的Transform和Action,为什么Spark要把操作分为Transform 和Action?常用的列举一些,说下算子原理 ?
在Spark中,操作被分为转换(Transformation)和行动(Action)两种类型,这种设计主要是为了实现Spark的惰性执行(Lazy Evaluation)模型,提高计算效率和优化执行计划。下面是对转换和行动的简述,以及一些常用的操作和它们的原理。
转换(Transformation)
转换操作是对RDD、DataFrame或Dataset进行的操作,它们定义了一个新的分布式数据集,但不立即执行计算。转换操作创建了依赖关系,这些依赖关系会在后续的行动操作中被触发。
常用转换操作:
- map:对RDD中的每个元素应用一个函数,生成一个新的RDD。
- filter:根据条件过滤RDD中的元素,生成一个新的RDD。
- groupByKey:按照键对RDD中的元素进行分组,生成一个(K, V)类型的RDD。
- reduceByKey:合并具有相同键的元素,通过一个合并函数。
- join:根据键将两个RDD连接起来,生成一个新的RDD。
- select:在DataFrame中选择特定的列。
- where:在DataFrame中过滤行。
转换原理:
转换操作记录了对数据的变换逻辑,但不会立即执行。它们创建了转换规则,这些规则被Spark的优化器用来构建一个执行计划。当行动操作触发时,Spark会根据这些规则和数据依赖关系,生成一个高效的执行图。
行动(Action)
行动操作是触发实际计算的指令,它们告诉Spark需要执行计算并返回结果。行动操作会触发从根节点开始的所有转换操作的执行。
常用行动操作:
- count:返回RDD中的元素数量。
- collect:返回RDD中的所有元素到驱动程序的内存中。
- take:返回RDD中前n个元素。
- reduce:使用给定的函数对所有元素进行归约。
- saveAsTextFile:将RDD的内容保存到文本文件。
- show:在DataFrame中显示前n行数据。
行动原理:
行动操作是Spark执行计划的触发点。当一个行动操作被调用时,Spark会根据之前记录的所有转换操作,生成一个物理执行计划。这个计划会考虑数据的本地性、并行度和资源分配等因素,以优化整体的执行效率。
为什么分为Transform和Action
- 惰性执行:Spark利用惰性执行模型来延迟计算,直到行动操作被触发,这样可以减少不必要的计算和资源浪费。
- 优化执行计划:通过记录转换操作而不是立即执行,Spark的优化器可以在行动操作触发时,根据整个转换链来优化执行计划。
- 中间数据重用:转换操作创建的RDD可以被多个行动操作重用,这样可以避免重复计算,提高效率。
- 容错性:转换操作定义了数据转换的逻辑,Spark可以使用这些信息来重建丢失的分区,提高系统的容错性。
通过将操作分为转换和行动