spark rdd

本文深入探讨了Spark中核心概念RDD的特性及其在集群中的分布情况,并详细讲解了Spark的作业调度流程,包括Action触发的计算过程及DAGScheduler的角色。

本文面向的读者是具有一定spark使用经验,想提升对spark理解的童鞋们。

RDD 是spark最主要的抽象(其他两个是Accumulator 和 BroadCast)。一个RDD 本身是一个java(scala)对象,它代表的是分布在集群中不同节点上的数据。那么很自然,这个对像的属性如下:

1 a list of partitions: 也就是构成这个 RDD 的partition

2 a  function for computing each split:作用与这个RDD的partition上的函数

3 a list of dependencies on other RDDs: 对其他 RDD 的依赖

4 (可选)a partitioner for key-value RDDs:对于key-value类型的RDD,当进行shuffle时如何将一个k-v映射到不同的reduce 阶段的partition。

5 (可选)a list of preferred location to computer each split on:为了提高效率,每个parition尽可能在存储它的那个节点。这个主要是对从hdfs文件读数据时涉及到的。


下面再来谈谈 RDD 的action。action将会触发Sparkontext对像的 runJob方法,这一步是将 RDD 的计算函数真正发布到集群上去执行。

SparkContext 将job交给调度层 DASGScheduler 对象去处理,处理完毕以后调用 TaskScheduler的submitTasks 方法。

TaskScheduler 是一个接口,它的实现类是TaskSchedulerImpl, TaskSchedulerImpl 根据不同的集群,将 task 发送给不同的 ExecutorBackend 去执行。

ExecutorBackend 是一个trait:它的实现类有:LocalSchedulerackend,StandaloneSchedulerBackend ,YarnClientSchedulerBackend,YarnClusterSchedulerBackend,MesosExecutorBackend 


下面再来看看另一对像: DAGScheduler

这个对象是spark框架中的调度层,spark所有的job都是交给这个对象去进行调度的。那么这个对象的作用是什么?

1  计算每个job 的 stage 的 DAG图

2 跟踪哪个stage 的输出结果已经执行完毕

3 寻找调度 stage 的最优策略(比如利用cache中的rdd加速执行)

4 根据不同的集群(local,standalone,yarn,mesos),将 stages 中的 taskset 交给 TaskScheduler  。


下面就讲讲如何划分不同的stage。

spark 的stage 是根据RDD shuffle的边界划分的。RDD窄依赖的操作被划分为一个stage,不同的task被合并成一组连续执行的task,窄依赖的操作比如Lmap filter 等等。这个stage执行完毕会将数据持久化到本地磁盘。然后下一个stage从磁盘中读取数据开始执行。这儿要注意的是,持久化到磁盘的数据会一直保存,如果下面再有其他RDD依赖此stage,则直接从磁盘读取数据即可,不需要再进行计算了,这个stage阶段的文件会丢失,暂时还不知道是为什么,丢失以后会重新计算的。



<think>好的,用户想了解Spark RDD的使用和概念。首先我需要回顾一下RDD的基本定义和核心特性。根据引用[3],RDD是弹性分布式数据集的缩写,是Spark对不可变分布式数据集的抽象。这意味着RDD代表一个可以并行操作的元素集合,具有容错性。 接下来,我需要解释RDD的五大特性,包括分区、依赖关系、计算函数、分区器以及优先位置。这些都是RDD的核心概念,用户需要清楚这些特性如何支持容错和高效计算。 然后要讲RDD的创建方式。常见的有从外部数据源加载,比如HDFS或本地文件系统,或者通过转换已有的RDD生成新的RDD。需要举一些例子,比如parallelize方法或者textFile方法。 关于RDD的操作,分为转换(Transformations)和动作(Actions)。转换是惰性的,只有触发动作时才会执行。这里可以举一些常用的转换和动作的例子,如map、filter、reduceByKey,以及collect、count等。同时要注意区分宽依赖和窄依赖,宽依赖会触发shuffle,影响性能。 容错机制方面,RDD通过血统(Lineage)来恢复丢失的分区。每个RDD记录了自己是如何从其他RDD转换而来的,这样在节点失败时可以根据这些信息重新计算丢失的数据,而不需要复制多份数据。 另外,用户可能对RDDSpark生态系统中的位置感兴趣。比如,DStream是Spark Streaming的基础,由一系列RDD组成,如引用[1]和[2]提到的。而结构化流(Structured Streaming)则是基于DataFrame,优化更多,但底层可能还是利用了RDD的特性。 需要提到RDD的适用场景,比如需要低延迟操作、精细控制数据分区,或者使用非结构化数据时。同时也要指出当需要更高级优化时,DataFrame或Dataset可能更合适,如引用[5]提到的转换器和预测器的例子,虽然那更多是ML库的内容,但能说明生态系统的多样性。 最后,生成的相关问题需要覆盖RDD与其他组件的比较,比如DStream和DataFrame,以及优化方法、容错机制和适用场景。这样用户如果有进一步的问题,可以继续深入。</think>### Spark RDD 核心概念与使用详解 #### 一、RDD 基础定义 **弹性分布式数据集(Resilient Distributed Dataset, RDD)** 是 Spark 的底层核心抽象,代表一个**不可变、分区的数据集合**,支持并行操作[^3]。其核心特性可总结为五大要素: - **分区列表**:数据被划分为多个分区(Partition),每个分区在集群节点上分布式存储 - **依赖关系**:记录父 RDD 到子 RDD 的转换关系(窄依赖/宽依赖) - **计算函数**:用于从父 RDD 计算当前分区的函数 - **分区器**:定义数据分布规则(如 HashPartitioner) - **优先位置列表**:标识数据分片的最佳计算位置(数据本地性优化) #### 二、RDD 创建方式 1. **从外部数据源加载**: ```python # 从本地文件创建 rdd = sc.textFile("hdfs://path/to/file.txt") # 从集合创建 rdd = sc.parallelize([1,2,3,4,5]) ``` 2. **通过转换操作生成**: ```python mapped_rdd = rdd.map(lambda x: x*2) filtered_rdd = rdd.filter(lambda x: x>3) ``` #### 三、核心操作类型 | 操作类型 | 特点 | 示例 | |---------|------|------| | **Transformations**(转换) | 惰性执行,生成新 RDD | `map()`, `filter()`, `groupByKey()` | | **Actions**(动作) | 触发实际计算 | `collect()`, `count()`, `saveAsTextFile()` | | **宽依赖操作** | 涉及数据重分布(Shuffle) | `join()`, `reduceByKey()` | #### 四、容错机制 通过**血统(Lineage)**实现容错: $$ \text{RDD}_n = f(\text{RDD}_{n-1}) = f_{n} \circ f_{n-1} \circ \cdots \circ f_1(\text{原始数据}) $$ 当某个分区丢失时,Spark 可根据这个依赖链重新计算该分区[^3]。 #### 五、应用模式示例 ```python # 词频统计经典案例 lines = sc.textFile("hdfs://...") words = lines.flatMap(lambda line: line.split(" ")) pairs = words.map(lambda word: (word, 1)) counts = pairs.reduceByKey(lambda a,b: a+b) counts.saveAsTextFile("hdfs://output") ``` #### 六、与流处理的关联 在 Spark Streaming 中,DStream 本质上是**时间维度上的 RDD 序列**: $$ \text{DStream} = \{ \text{RDD}_t \mid t \in \text{时间窗口} \} $$ 每个微批处理实际上是对 RDD 的操作[^1][^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值