Spark设计理念与基本架构学习

最新推荐文章于 2023-06-06 14:55:36 发布

shmily‘’

最新推荐文章于 2023-06-06 14:55:36 发布

阅读量836

点赞数

CC 4.0 BY-SA版权

文章标签： Spark

本文链接：https://blog.youkuaiyun.com/weixin_41074929/article/details/82890939

本文深入探讨了Spark的核心模块，包括Spark Core、Spark SQL、Spark Streaming、GraphX和MLlib，强调SparkContext的重要性以及其在DAGScheduler和TaskScheduler中的作用。此外，介绍了Spark的内存优先存储体系和计算引擎，以及支持的部署模式。还概述了Spark编程模型，特别是RDD的计算模型和Spark集群的组成，包括Cluster Manager、Worker、Executor和Driver APP。

《深入理解Spark核心思想与源码分析》学习

一、Spark模块设计

Spark模块包括Spark Core，Spark SQL, Spark Streaming， GraphX， MLlib。
其中，Spark Core是Spark的核心功能实现，包括SparkContext的初始化，部署模式，存储体系，计算引擎，任务提交与执行；
Spark SQL提供关系型数据库SQL处理能力；Spark Streaming提供流式计算处理能力；GraphX提供图计算能力；MLlib提供机器学习相关算法实现。

Spark的核心功能由Spark Core提供，如下：
SparkContext：在编写Spark程序时，首先应对SparkContext进行初始化，我们编写的 Driver Application的执行与输出都是通过SparkContext来实现。SparkContext中的DAGScheduler负责Job的创建，将DAG中的RDD划分到不同的Stage，提交Stage等，TaskScheduler中的Schedulerbackend负责资源的申请分配与任务调度。
存储体系：Spark是基于内存的，优先选择各节点的内存进行存储，当内存不够用时，才会考虑使用磁盘存储，尽可能减少了磁盘I/O操作，提升了效率，这使得Spark适用于实时计算、流式计算的场景。
计算引擎：计算引擎由SparkContext中的DAGScheduler、RDD和具体节点上的Executor进程负责执行的Map和Reduce任务组成。
部署模式：提供了Standalone模式的部署实现，支持Yarn等分布式资源管理系统，这主要解决单节点不足以提供足够的存储和计算能力的问题。
Spark扩展功能包括Spark SQL, Spark Streaming， GraphX， MLlib。

二、Spark模型设计

Spark编程模型：