Spark的相关概念说明和检查点机制

本文深入解析了Spark应用架构,包括Application、Driver、Job、Stage和Task的基本概念及其工作流程。同时,详细介绍了缓存Cache与Checkpoint的区别及物化操作的实现步骤,强调了checkpoint路径指定的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一:相关概念的说明

  1.application应用:
    一个App包含:一个driver(驱动器)、cluster manager(集群管理器)、一个或多个Exector(执行器)
    spark中的App可以构建多个Job,而Job间的调用遵循{Scheduling Mode: FIFO}先进先出模式;
    在App应用中,触发Action(行动操作)时,创建Job;
  2.driver(驱动器):
    一般情况下,可以把SparkContext理解为驱动器;
  3.Job作用:
    每个Job都将执行spark的相关调度:
    触发Action时,开启Job作业,并通过宽依赖对RDD进行Stage划分,一个Job可以包含一个或多个Stage;
    而每个Stage由一个或多个Task任务组成;Task任务数由partition数决定;程序中可根据需求修改partition

二:检查点checkpoint

  1.缓存Cache对RDD进行内存缓存处理,但不对RDD进行相关操作。
  2.checkpoint物化处理:
    a.将RDD存储到物理磁盘上,以二进制流的方式。
    b.物化后,RDD的依赖关系以及RDD本身将不复存在。
  3.实现物化操作,需完成以下两个操作(a,b):
    a.必须指定checkpoint的路径,如果不指定,将抛异常;
    b.物化操作(checkpoint)为转换操作,所以执行Action操作之后才进行物化,RDD计算将执行两次。
    c.一般情况下,在checkpiont之前做cache()后,将缓存内容直接输出至物化地址;

转载于:https://www.cnblogs.com/lyr999736/p/10361973.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值