Spark02——三大数据结构_spark中哪些方法返回的不是图结构-优快云博客

本文链接：https://blog.youkuaiyun.com/First_____/article/details/119062683

RDD介绍

因为RDD的实现原理和IO的实现原理差不多，我们先来说一下IO的实现原理：
其实真正进行读取数据的还是FileInputStream

IO实现原理图解：

在这里插入图片描述

RDD的工作流程：

在这里插入图片描述

RDD不会存储数据,但是可以存储依赖关系和血缘关系；
RDD也有装饰者模式；
RDD只有调用collect方法，才会真正执行业务逻辑代码，封装操作都是对RDD的功能扩展

分区和并行度:

概念:
分区 & 并行的概念: 分区和并行度是可以不一样的, 当有2个分区和1个executor的时候,就还不是并行,只能并发执行

并行度执行解析:
对数据进行分区, 然后每个分区内必须一个一个执行,多个分区可以并行执行,做到执行区内有序,区外无序

例: 对数据 List(1,2,3,4), 两个分区
计算流程:

先进行分配,
0号分区 => 1 ,2
1号分区 => 3,4
如果再执行两次map的话, 就会先将每个分区的第一个数据的全部计算完成之后,才会进行执行第二个, 做到区内数据执行有序

在这里插入图片描述

RDD的特点：

介绍：RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。

➢ 弹性
⚫ 存储的弹性：内存与磁盘的自动切换（效率高）；
⚫ 容错的弹性：数据丢失可以自动恢复；
⚫ 计算的弹性：计算出错重试机制；
⚫ 分片的弹性：可根据需要重新分片（其实就是分区）。
➢ 分布式：数据存储在大数据集群不同节点上
➢ 数据集：RDD 封装了计算逻辑，并不保存数据（数据计算完成之后，就进行销毁了）
➢ 数据抽象：RDD 是一个抽象类，需要子类具体实现
➢ 不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在新的 RDD 里面封装计算逻辑
➢ 可分区、并行计算

算子介绍:

对象所执行的方法,都是在一个节点中执行的
RDD的方法内部计算逻辑代码,都是发送到executor上来执行的
为了区分不同的效果,将RDD的方法称为算子

RDD依赖(血缘)关系介绍:

概念介绍:

血缘关系: 就是我们的RDD的整个之间的依赖关系,就叫血缘关系,而maven中叫间接依赖
一个上游的RDD的partition最多只被一个下游的partition使用,叫做OneToOne(窄依赖)
一个上游的RDD的partition被多个下游的partition使用,叫做shuffle(宽依赖)
toDebugString(): 获取RDD的血缘关系
dependencies(): 获取依赖关系

在这里插入图片描述

任务和阶段的划分:

阶段的划分(stage): 每进行一次shuffle都要增加一个阶段,最后还有创建一个resultStage阶段,所以,阶段的数量= shuffle的次数+1
任务的划分(task): 任务的数量=每个stage最后的分区数量

数据重复使用

原因: 因为RDD不能存储数据,所以不能进行重复使用
如果要想达到重复使用的目的,就在想到重复使用的RDD地方,进行数据持久化(内存中,磁盘上)
不一定非要重复时,才进行持久化, 如果进行了持久化,当数据发生错误时,就不会进行从头读取,浪费时间资源,提高效率
保存到磁盘的时候,是临时文件,当程序执行完是会删除的, 所以并不需要填写路径
也可以使用检查点checkpoint的方式,进行保存数据到磁盘

图解:

在这里插入图片描述
具体操作:

调用cache()或者 persist()方法进行持久化
cache()方法默认是保存到内存中, 如果要更改保存级别, 可以使用 persist()方法,进行更改
checkpoint()检查点,是需要填写路径的(默认当前路径),保存到磁盘当中,当程序执行完,不会进行删除,一般情况下,保存到分布式文件系统当中(hdfs)

在这里插入图片描述

三者的效率对比:

在这里插入图片描述

分区源码实现

  def main(args: Array[String]): Unit = {
   
   

    //准备环境
    val conf = new SparkConf().setAppName("RDD_Partition").setMaster("local[*]")
    conf.set("spark.default.parallelism","3")
    val sc = new SparkContext(conf)

    /**
     *
     */
    //指定并行度 :  第一个参数:数据        第二个参数: 分区的数量, 默认为当前运行环境的机器的最大核数,也可以通过下面配置参数进行配置
    //     defaultParallelism:  scheduler.conf.getInt("spark.default.parallelism", totalCores)