单手解Spark之Executor计算执行逻辑

本文深入探讨了Spark中Task的执行流程,从Driver端的调度开始,详细解析了TaskDescription的反序列化过程,以及Executor如何通过launchTask方法执行Task。进一步分析了TaskRunner的run方法,以及ShuffleMapTask和ResultTask如何实现runTask方法,揭示了RDD的iterator和compute方法在任务执行中的关键作用。

Driver 中的 CoarseGrainedSchedulerBackend 给 CoarseGrainedExecutor­Backend 发送 LaunchTask 消息

反序列化TaskDescription

点击进入decode方法

Executor会通过 launchTask执行 Task。

点击进入launchTask方法

Executor的launchTask方法先是创建一个TaskRunner实例,点击进TaskRunner,然后往下找找到run方法

 

点击进入task.run方法

这个文件往下滑

点击进去runTask方法,可以看到runTask方法是一个抽象方法

我们知道Task有两种类型,分别是ShuffleMapTask和 ResultTask,我们依次来看一下这两个类是如何实现runTask方法的

首先是ShuffleMapTask的

上图第99行,调用了RDD的iterator方法,点击进去,

再点击进computeOrReadCheckpoint方法

RDD的compute 方法是一个抽象方法,每个 RDD 都需要重写这个方法。

这里,我们选择查看MapPartitionsRDD的compute方法

通过迭代器的不断叠加,将每个 RDD 的小函数合并成一个大的函数流。通过shuffleManager获得的shuffleWriter把当前 Task 计算的结果根据具体的shuffleManager实现写入到具体的文件中 ,操作完成后会把 MapStatus发送给Driver端的 DAGScheduler的MapOutputTracker。

接着我们来看一下ResultTask

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值