深入了解 Apache Spark:架构、部署与应用之道
1. Apache Spark 分布式执行基础
Apache Spark 是一款分布式数据处理引擎,其各组件在集群机器上协同工作。在深入学习 Spark 编程之前,了解其分布式架构组件的协作与通信方式,以及可用的部署模式至关重要。
1.1 Spark 架构组件
- Spark 驱动程序(Spark driver) :负责实例化
SparkSession,承担多项重要职责。它与集群管理器通信,向其请求 CPU、内存等资源供 Spark 执行器(JVM)使用;将所有 Spark 操作转换为有向无环图(DAG)计算,对其进行调度,并将执行任务分配到各个 Spark 执行器。资源分配完成后,直接与执行器通信。 - SparkSession :自 Spark 2.0 起,
SparkSession成为所有 Spark 操作和数据的统一入口。它整合了之前的SparkContext、SQLContext、HiveContext、SparkConf和StreamingContext等入口点,简化了 Spark 的使用。通过它,可创建 JVM 运行时参数、定义DataFrames和Datasets、从数据源读取数据、访问目录元数据以及执
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



