Spark RDD的Action执行过程——Task剖析

本文详细解析了Spark中Task Runner的运行机制,重点介绍了ShuffleMapTask和ResultTask的run方法,深入分析了MapPartitionsRDD的compute方法及其实现原理。

Pool会依次执行TaskRunner
在这里插入图片描述
下面就分析TaskRunner中的run方法
在这里插入图片描述
在这里插入图片描述
这里调用了task的run方法
在这里插入图片描述
在这里插入图片描述
这里调用了runTask方法,这个方法是一个抽象方法,有两种实现,一个是ShuffleMapTask的实现,另一个是ResultTask的实现
在这里插入图片描述
首先看一下比较复杂的ShuffleMapTask
这里的注意点在于writer.write方法中的rdd.iterator()方法
在这里插入图片描述
分析computerOrReadCheckpoint()方法
在这里插入图片描述
下面是MapPartitionsRDD的compute方法分析
这个方法就是task执行rdd上算子的实现.若实在是找不到已经计算好的结果,那最终就会调用这个方法进行计算
在这里插入图片描述
当然了不管结果是计算出来的还是直接取得的都要把task执行完成的消息传达会给executor
这里就向对应的executor的backend update了task的status
在这里插入图片描述
backend的statusUpdate方法
在这里插入图片描述
下面再来看一下ResultTask
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值