Spark-算子

一、算子分类

  • Transformations延迟执行算子:针对RDD的操作。
  • Action触发执行算子,触发transformations执行。
  • 持久化算子:Cache、Persist、Checkpoint。

 二、Action算子执行过程

  • 执行Action触发执行算子的时候,会一直往上找,直到找到第一个rdd,然后读磁盘,进行运算得到结果。

三、持久化

  • 分类:Cache、Persist、Checkpoint,都是懒执行算子,需要Action算子触发执行。只有当Action之后才会产生持久化。
  • Cache:默认将RDD中的数据存在内存中。
  • Persist:可以手动指定持久化级别。persist(StorageLevel.MEMORY_ONLY) = cache() = persist()。级别:MEMORY_ONLY(指放入内存中,如果内存不够则不放入到内存中,下次重新从源文件磁盘读取)、MEMORY_AND_DISK(是指内存不够了,剩下的写入到磁盘,比如文件1G,内存只有500M,剩下的500M写入磁盘)。persist中的存入磁盘数据,会随着应用程序执行完成,自动释放清空。
  • Checkpoint:持久化到磁盘中。存入磁盘,数据不会随着应用程序执行完成,而自动释放清空。执行过程:当application有action触发执行时,job执行完之后,会从后往前回溯去找有哪些RDD被checkpoint的做标记,回溯完成之后,重新计算checkpointRDD的数据,将结果写入指定的checkpoint目录中,然后切断RDD的依赖关系。可以优化一下在checkpoint之前cache()一次,当执行第2个job的时候不用重头开始计算,可以直接从cache中取。

注意:count、collect算子会将在worker端的计算结果回收到Driver端,如果Driver端内存不足,就会出现内存溢出问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值