
Spark
wzsyf
学习
展开
-
Driver 端长时容错详解
引言之前的详解我们详解了完成 Spark Streamimg 基于 Spark Core 所新增功能的 3 个模块,接下来我们看一看第 4 个模块将如何保障 Spark Streaming 的长时运行 —— 也就是,如何与前 3 个模块结合,保障前 3 个模块的长时运行。通过前 3 个模块的关键类的分析,我们可以知道,保障模块 1 和 2 需要在 driver 端完成,保障模块 3 需要在 e...原创 2020-05-05 15:09:28 · 247 阅读 · 0 评论 -
Executor 端长时容错详解
引言之前的详解我们详解了完成 Spark Streamimg 基于 Spark Core 所新增功能的 3 个模块,接下来我们看一看第 4 个模块将如何保障 Spark Streaming 的长时运行 —— 也就是,如何与前 3 个模块结合,保障前 3 个模块的长时运行。通过前 3 个模块的关键类的分析,我们可以知道,保障模块 1 和 2 需要在 driver 端完成,保障模块 3 需要在 e...原创 2020-05-05 15:05:04 · 238 阅读 · 0 评论 -
ReceiverTraker, ReceivedBlockTracker 详解
引言我们在 [Spark Streaming 实现思路与模块概述](0.1 Spark Streaming 实现思路与模块概述.md) 给出了 模块 3:数据产生与导入 的基本工作流程:(1) 由 Receiver 的总指挥 ReceiverTracker 分发多个 job(每个 job 有 1 个 task),到多个 executor 上分别启动 ReceiverSupervisor 实例;...原创 2020-05-05 11:54:49 · 472 阅读 · 0 评论 -
Receiver, ReceiverSupervisor, BlockGenerator, ReceivedBlockHandler 详解
引言我们在前面 [Spark Streaming 实现思路与模块概述](0.1 Spark Streaming 实现思路与模块概述.md) 中分析过,Spark Streaming 在程序刚开始运行时:(1) 由 Receiver 的总指挥 ReceiverTracker 分发多个 job(每个 job 有 1 个 task),到多个 executor 上分别启动 ReceiverSuperv...原创 2020-05-05 11:47:55 · 245 阅读 · 0 评论 -
Receiver 分发详解
引言我们前面在 [DStream, DStreamGraph 详解](1.1 DStream, DStreamGraph 详解.md) 讲到,整个 DStreamGraph 是由 output stream 通过 dependency 引用关系,索引到上游 DStream 节点。而递归的追溯到最上游的 InputDStream 节点时,就没有对其它 DStream 节点的依赖了,因为 Input...原创 2020-05-05 11:40:44 · 759 阅读 · 0 评论 -
JobGenerator 详解
引言前面在 [Spark Streaming 实现思路与模块概述](0.1 Spark Streaming 实现思路与模块概述.md) 和 [DStream 生成 RDD 实例详解](1.2 DStream 生成 RDD 实例详解.md) 里我们分析了 DStream 和 DStreamGraph 具有能够实例化 RDD 和 RDD DAG 的能力,下面我们来看 Spark Streaming ...原创 2020-05-04 11:19:09 · 431 阅读 · 0 评论 -
JobScheduler, Job, JobSet 详解
引言前面在 [Spark Streaming 实现思路与模块概述](0.1 Spark Streaming 实现思路与模块概述.md) 和 [DStream 生成 RDD 实例详解](1.2 DStream 生成 RDD 实例详解.md) 里我们分析了 DStream 和 DStreamGraph 具有能够实例化 RDD 和 RDD DAG 的能力,下面我们来看 Spark Streaming ...原创 2020-05-04 11:12:16 · 630 阅读 · 0 评论 -
DStream 生成 RDD 实例详解
引言我们在前面的文章讲过,Spark Streaming 的 模块 1 DAG 静态定义 要解决的问题就是如何把计算逻辑描述为一个 RDD DAG 的“模板”,在后面 Job 动态生成的时候,针对每个 batch,都将根据这个“模板”生成一个 RDD DAG 的实例。在 Spark Streaming 里,这个 RDD “模板”对应的具体的类是 DStream,RDD DAG “模板”对应的具...原创 2020-05-02 17:02:38 · 426 阅读 · 0 评论 -
DStream, DStreamGraph 详解
引言我们在前面的文章讲过,Spark Streaming 的 模块 1 DAG 静态定义 要解决的问题就是如何把计算逻辑描述为一个 RDD DAG 的“模板”,在后面 Job 动态生成的时候,针对每个 batch,都将根据这个“模板”生成一个 RDD DAG 的实例。在 Spark Streaming 里,这个 RDD “模板”对应的具体的类是 DStream,RDD DAG “模板”对应的具...原创 2020-05-02 16:43:06 · 362 阅读 · 0 评论 -
Spark Streaming 实现思路与模块概述
Spark Streaming 的整体模块划分:模块 1:DAG 静态定义–静态的RDD DAG模板模块 2:Job 动态生成–动态的工作控制器模块 3:数据产生与导入–原始数据的产生和导入模块 4:长时容错–长时运行任务的保障Spark Streaming 与 Spark Core 的关系可以用下面的经典部件图来表述:在本节,我们先探讨一下基于 Spark Core 的 RDD ...原创 2020-04-27 17:41:07 · 262 阅读 · 0 评论