RDD算子操作

1、RDD定义

RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。

2、RDD的属性

在这里插入图片描述
1)一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值。默认值就是程序所分配到的CPU Core的数目。
2)一个计算每个分区的函数。Spark中RDD的计算是以分片为单位的,每个RDD都会实现compute函数以达到这个目的。compute函数会对迭代器进行复合,不需要保存每次计算的结果。
3)RDD之间的依赖关系。RDD的每次转换都会生成一个新的RDD,所以RDD之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时,Spark可以通过这个依赖关系重新计算丢失的分区数据,而不是对RDD的所有分区进行重新计算。
4)一个Partitioner,即RDD的分片函数。当前Spark中实现了两种类型的分片函数,一个是基于哈希的HashPartitioner,另外一个是基于范围的RangePartitioner。只有对于于key-value的RDD,才会有Partitioner,非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分片数量,也决定了parent RDD Shuffle输出时的分片数量。
5)一个列表,存储存取每个Partition的优先位置(preferred location)。对于一个HDFS文件来说,这个列表保存的就是每个Partition所在的块的位置。按照“移动数据不如移动计算”的理念,Spark在进行任务调度的时候,会尽可能地将计算任务分配到其所要处理数据块的存储位置。

3、RDD创建的方式

1)通过一个已经存在的Scala集合创建

val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8)) 

2)通过外部存储系统的数据集创建,如:本地的文件系统,Hadoop支持的数据集,比如HDFS、Cassandra、HBase等

val rdd2 = sc.textFile("hdfs://localhost:9000/words.txt")

4、RDD的两种操作类型
转换(transformations),它将根据原有的RDD创建一个新的RDD;
行动(actions),对RDD操作后把结果返回给driver。
例如:

sc.textFile("hdfs://localhost:9000/words.txt").flatMap(_.split(" "))
.map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://localhost:9000/out")

map是一个转换,它把数据集中的每个元素经过一个方法处理后返回一个新的RDD;而reduce则是一个action,它收集RDD的所有数据后经过一些方法的处理,最后把结果返回给driver。
RDD的所有transformations操作都是lazy模式,即Spark不会立刻计算结果,而只是简单的记住对数据集的转换操作。这些transformations只有遇到action操作的时候才会开始计算。这样的设计使得Spark更加的高效,因为Spark可以完整地查看DAG之后做出许多优化决策,比如可以复用之前的RDD中间结果。
常用的Transformation:
在这里插入图片描述
在这里插入图片描述

常用的Action:
在这里插入图片描述

6、RDD的缓存
Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存整个数据集。当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他actions中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存,是Spark最重要的特征之一。可以说,缓存是Spark构建迭代式算法和快速交互式查询的关键。
缓存方式:
RDD通过persist方法或cache方法可以将前面的计算结果缓存,但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。
Spark的存储级别还有好多种,存储级别在object StorageLevel中定义的。
在这里插入图片描述
缓存有可能丢失,或者存储存储于内存的数据由于内存不足而被删除,RDD的缓存容错机制保证了即使缓存丢失也能保证计算的正确执行。通过基于RDD的一系列转换,丢失的数据会被重算,由于RDD的各个Partition是相对独立的,因此只需要计算丢失的部分即可,并不需要重算全部Partition。
缓存使用:

import org.apache.spark.storage.StorageLevel
val rdd1 = sc.textFile("hdfs://localhost:9000/words.txt ").persist(StorageLevel.MEMORY_ONLY)
val rdd2 = rdd1.map(x=>x+1).collect()

或者:val rdd1 = sc.textFile("hdfs://localhost:9000/words.txt ").cache()
释放缓存机制:rdd1.unpersist(true)

<think>我们正在讨论的是RDD算子的数量,但根据引用的内容,实际上用户可能混淆了“RDD算子”和“RDD分区中的元素数量”这两个概念。 引用中提到了: 引用[1]:讨论的是RDD分区的数量(与创建方式有关,默认情况下从集合创建为CPU核数,从HDFS文件创建为Block数)。 引用[2]:展示了一个RDD经过flatMap算子转换后,分区数量不变(rdd1和rdd2的分区数都是2)。 引用[3]:展示了一个RDD(由1到50的集合创建)的分区数量为15。 用户的问题:“我想查询RDD算子的数量”。这里需要澄清: 1. RDD算子(Transformations和Actions)是Spark RDD上的操作函数,如map、filter、reduce等,它们的数量是指Spark提供了多少种这样的操作。 2. 而用户引用的内容都是在讨论RDD分区的数量以及分区中元素的数量。 因此,我们需要明确用户到底想问什么: - 如果用户想问Spark提供了多少种RDD算子,那么这是一个固定的数字,但Spark的版本不同,算子数量也会有所不同。而且,算子可以分为转换(Transformations)和行动(Actions)两大类。 - 如果用户想问的是一个特定的RDD经过转换后,其分区数量是多少,那么就需要根据具体的创建方式和转换算子来分析。 根据用户提供的引用内容,他们似乎在讨论分区数量(partitions.size)而不是算子的种类数量。所以,我们首先要确认用户的问题。 但是,用户明确说:“我想查询RDD算子的数量”。所以,我们应按照这个字面意思来解释。 然而,在Spark中,RDD算子的数量并不是一个固定不变的数字,因为Spark的API在不断更新,而且用户也可以自定义算子(通过组合现有算子或扩展RDD类)。但是,我们可以给出Spark核心算子的大致情况。 回答策略: 1. 首先解释RDD算子分为两类:转换(Transformations)和行动(Actions)。 2. 说明算子的数量会随着Spark版本变化而变化,因此不给出绝对数字,而是给出常见算子的大致数量和分类。 3. 如果用户实际上是想问RDD的分区数量,那么我们也需要根据引用内容解释分区数量是如何确定的。 考虑到用户引用了分区数量的例子,我们可以在回答中同时包含这两方面的信息,但以回答算子数量为主,并澄清两者的区别。 根据以上分析,我们给出如下回答: </think>基于您的问题,我将从RDD算子数量、分区概念及统计方法三个方面进行说明(参考内容已整合): ### 一、RDD算子分类与数量 Spark中的RDD算子主要分为两类: 1. **转换算子(Transformations)** 如 `map()`, `filter()`, `flatMap()` 等,这类算子会生成新的RDD(延迟执行)。 常见转换算子约 **30+** 种(不同Spark版本略有差异)。 2. **行动算子(Actions)** 如 `count()`, `collect()`, `reduce()` 等,这类算子触发实际计算并返回值。 常见行动算子约 **20+** 种。 > ⚠️ 注意:算子数量并非固定值,Spark不同版本会增减API,用户也可自定义扩展算子[^1][^2]。 --- ### 二、RDD分区与元素统计 您引用的内容实际描述的是**分区数量**和**分区内元素统计**,与算子数量不同: 1. **分区数量确定规则**(引用[1][3]) - 从集合创建:默认=程序分配的CPU核数(例:`sc.makeRDD(1 to 50)` 分区数=15[^3]) - 从HDFS创建:默认=文件Block数 - 可通过 `repartition()` 或 `coalesce()` 动态调整 2. **分区元素统计方法** ```scala // 示例:统计rdd2各分区元素数量 val rdd2 = rdd1.flatMap(_.split(" ")) // 分区数继承自rdd1[^2] rdd2.mapPartitions(iter => Iterator(iter.size)).collect() ``` 输出结果如:`Array(分区1元素数, 分区2元素数, ...)` --- ### 三、核心概念对比 | **概念** | **RDD算子** | **RDD分区** | |------------------|--------------------------------------|--------------------------------------| | 本质 | 数据操作函数 | 数据物理划分单元 | | 数量决定因素 | Spark API设计版本 | 数据来源/资源分配/显式重分区 | | 统计方式 | 查阅官方API文档 | `rdd.partitions.size`[^2][^3] |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值