Spark RDD五大特性

本文介绍了Spark中RDD(弹性分布式数据集)的核心特性,包括由多个分区构成、每个分区的计算函数、与其他RDD的依赖关系、可选的键值对分区器以及最佳计算位置。RDD是Spark的基础抽象类,不可变且可并行操作,适用于分布式计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习rdd的特性最好是从官网和源码来进行学习,首先看下官网解释:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds 

Resilient Distributed Datasets (RDDs)

    Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel. There are two ways to create RDDs: parallelizing an existing collection in your driver program, or referencing a dataset in an external storage system, such as a shared filesystem, HDFS, HBase, or any data source offering a Hadoop InputFormat.

   Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是可并行操作的元素的容错集合。创建RDD的方法有两种:并行化 驱动程序中的现有集合,或引用外部存储系统(例如共享文件系统NFS,HDFS,HBase或可以提供Hadoop InputFormat的任何数据源)中的数据集。

看完官网解释,感觉解释的很笼统,RDD具体的具体特性不是很清晰,ok,接下来查看源码

/**
 * A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,
 * partitioned collection of elements that can be operated on in parallel. This class contains the
 * basic operations available on all RDDs, such as `map`, `filter`, and `persist`. In addition,
 * [[org.ap
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值