Spark SQL与YARN应用开发全解析
1. Spark基础概述
1.1 Spark系统架构
Spark是一个通用的处理引擎,支持分布式数据集。它由一组核心API和执行引擎组成,在此基础上还有其他提供特定功能的Spark系统,如流处理管道设计等。核心Spark系统包括:
- Spark :通用处理引擎,支持分布式数据集。
- Shark :提供SQL和Hive支持。
- Spark Streaming :使用与批处理相同语言的流处理。
- MLlib :可扩展的机器学习库。
- GraphX :用于处理图和集合。
这些系统可以对其他系统生成的弹性分布式数据集(RDD)进行操作,方便代码的协同处理。
Spark的组件包括Spark驱动程序(Driver)、集群管理器(Cluster Manager)和执行器(Executor)。驱动程序负责与集群管理器通信以执行操作,执行器负责实际的操作执行和数据管理。
1.2 RDD的概念与操作
在Spark中,数据以RDD的形式表示。RDD是对一组项目的抽象,分布在集群上,每个集群节点存储和管理RDD中的一部分项目。RDD可以从多种来源创建,如常规Scala集合或HDFS中的数据。
以下是一个从文本文件创建RDD的示例:
scala>
超级会员免费看
订阅专栏 解锁全文
1251

被折叠的 条评论
为什么被折叠?



