Spark/RDD

最新推荐文章于 2025-04-13 18:39:45 发布

原创最新推荐文章于 2025-04-13 18:39:45 发布 · 483 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #RDD

Hadoop&Spark 专栏收录该内容

18 篇文章

订阅专栏

每一个Spark应用(Job),都是由一个驱动程序(Driver)构成，它运行用户的main函数。

RDD，是一个元素集合，划分到集群的各个节点上，可以被并行操作。RDD是不可变更的。

两种类型的RDD，并行集合(Scala集合)和hadoop数据集。这两种类型的RDD都可以通过相同的方式进行操作。

驱动程序

运行在Spark集群当中的每个驱动程序以各自独立的方式负责资源分配与任务调度工作。由于驱动程序充当着调度任务的执行者，它需要最大程度与这些工作节点保持紧密距离，从而避免网络延迟对执行效果造成的负面影响。

如果驱动程序停止工作，任务也将立即终止。如果集群管理器出现故障，新的任务则无法被提交，但是现有任务仍将继续保持执行。

并行集合

并行集合是通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合上创建的。集合的对象将会被拷贝，创建出一个可以被并行操作的分布式数据集。

一旦分布式数据集被创建好，它们将可以被并行操作。

并行集合的一个重要参数是slices，表示数据集切分的份数。一般情况下，Spark会尝试根据集群的状况，来自动设定slices的数目，也可以在创建RDD时指定，sc.parallelize(data,slices)。

Spark将会在集群上为每一份数据建立一个任务。

Hadoop数据集

Spark可以从存储在HDFS，或者Hadoop支持的其他文件系统(包括本地文件、HBase等)上的文件创建分布式数据集。Spark支持TextFile、SequenceFiles等。

对于TextFile ,sc.textFile(filepath)。

对于SequenceFiles， sc.sequenceFile[K,V]。其中K,V是文件中的key和values的类型，必须是Hadoop的Writable interface的子类。对于通用的Writable类型，Spark允许指定原生类型来代替，比如sequenceFile[Int ,String]将会自动读取IntWritable和Texts。

对于其他类型的Hadoop输入格式，可以使用SparkContext.hadoopRDD方法，可以接收任意类型的JobConf和输入格式类、键类型和值类型。