
大数据- Apache Spark 设计与实现
文章平均质量分 66
大数据处理框架 Apache Spark 设计与实现
wymyimeng
这个作者很懒,什么都没留下…
展开
-
Shuffle 机制
1、在 Spark 中,不同stage、不同节点上的task 进行数据传递的过程通常称为 Shuffle 机制。Shuffle 解决的是如何将数据进行重新组织,使其能够在上游和下游 task 间进行原创 2021-05-29 18:38:13 · 564 阅读 · 0 评论 -
4. Spark 物理执行计划
1. 执行步骤Spark 具体采用3个步骤来生成物理执行计划:首先根据action() 操作顺序将应用划分为job,在每个job 中,根据job 的逻辑流程中的 ShuffleDependency 依赖关系,将job 划分为stage。 最后在每个stage 中,根据最后生成的RDD 分区个数,生成 task。(1). job 的生成当应用程序出现 action() 操作的时候,表示该应用会生成一个 job,该job 的处理流程为从输入数据到 resultRDD 生成的过程。(2). sta原创 2021-05-25 08:33:37 · 713 阅读 · 0 评论 -
3. Spark逻辑处理流程
1. 逻辑处理流程概览1). 数据模型RDD只是一个逻辑概念,在内存中并不会真正为RDD 分配存储空间(除非这个RDD 需要被缓存)。RDD 只会在计算中产生,计算结束后就会消失。 RDD 可以包含多个分区,不同分区的数据由不同的任务(task) 在不同的节点上产生。Spark 将RDD 的操作分为两种:transformation() 操作和 action() 操作。两者的区别是: action() 是一种后处理(post-processing), 产生输出结果,而且会触发Spark 提交j.原创 2021-05-20 08:51:31 · 467 阅读 · 0 评论 -
2、Spark系统部署与应用运行的基本流程
1、Spark系统架构与Hadoop MapReduce 的结构类似,Spark 也是采用 Master-Worker 架构。Master 节点与Worker 节点的职责如下:1)、Master 节点上常驻Master 进程。该进程负责给Worker 进程分发Spark 任务,监控Worker 进程的存活情况以及监控Worker 进程上任务的执行情况。2)、Worker 节点上常驻Worker 进程。该进程除了与Master 进程进行通信外,还负责管理Spark 任务的执行,如启动 Exec原创 2021-05-15 17:27:38 · 329 阅读 · 2 评论 -
1、大数据处理框架概览
1、大数据具有数据量大(Volume)、数据类型多样(Variety)、产生与处理速度快(Velocity)、价值高(Value)的 “4V” 特性。2、Spark 是有 UC Berkeley 的 AMPLab 于2012年提出的基于内存,适合迭代计算的分布式处理框架。该框架允许用户将可重用的数据缓存(cache)到内存中,同时利用内存进行中间数据的聚合,极大缩短了数据处理的时间。这些大数据处理框架拥有共同的模型,即 MapReduce-like 模型,采用“分治-聚合”策略来对数据进行分布并行处理。原创 2021-05-13 08:51:44 · 1676 阅读 · 0 评论