00_pyspark_什么是RDD

Spark基础知识：理解RDD及其特性

最新推荐文章于 2024-05-03 11:33:35 发布

原创最新推荐文章于 2024-05-03 11:33:35 发布 · 166 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #大数据 #spark

spark 专栏收录该内容

4 篇文章

订阅专栏

RDD是Spark中的核心数据抽象，代表不可变、可分区的分布式数据集。它解决了分布式计算中的分区控制、Shuffle操作、数据存储和计算API等问题。每个RDD由分区列表、计算每个分区的函数、依赖于其他RDD的关系、可选的分区器和首选计算位置组成。默认使用Hash分区规则，可手动设置分区器。RDD设计考虑了数据本地性，以优化性能。

什么是RDD

分布式计算会带来的问题有：

分区控制
Shuffle控制
数据存储\序列化\发送
数据计算API
等一系列的问题

这些功能不能使用python内置的本地集合对象（List\字典等）去完成，我们在分布式框架中，需要有一个统一的数据抽象的对象，来实现上述分布式计算所需要的功能
这个对象就是RDD
RDD(Reslient Distributed Dataset):弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变的，可分区，里面的元素可并行计算的集合。Distributed分布式，RDD中数据的存储是分布式存储的（RDD的数据是跨越机器来存储的跨进程）

Internally,each RDD is characterized by five main properties:

A list of partitions
A function for computing each split (计算方法都会作用到每一个分片（分区）之上)
A list of dependencies on other RDD (RDD之间有依赖关系)
Optionally, a Partitioner for key-value RDDs
Optionally, a list of preferrd location to compute each split on (RDD分区数据的读取会尽量数据读取所在地)

RDD中的分区是RDD数据存储的最小单位，分区是物理概念，以多个分区物理的对象抽象成一个逻辑上的概念RDD。

import findspark

findspark.init()
from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName("rdd_init").setMaster("local[*]")
sc = SparkContext(conf=conf)

rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7], 3)

print(rdd.glom().collect())

在这里插入图片描述
Key-Value型的RDD是可以分区器，默认分区器：Hash分区规则，也可以手动设置一个分区器（rdd.partitionBy的分区方法来设置），这个特性是可能吗，因为不是所有的RDD都是k-v型的；
RDD的分区规划，会尽量靠近数据所在的服务器，这样可以走本地读取，避免网络读取，本地读取的性能是大于网络读取的性能，spark会在确保并行计算的能力的前提下，尽量的去确保本地读取，所以这个特性也是可能的。