41、Spark SQL与YARN应用开发全解析

Spark SQL与YARN应用开发全解析

1. Spark基础概述

1.1 Spark系统架构

Spark是一个通用的处理引擎,支持分布式数据集。它由一组核心API和执行引擎组成,在此基础上还有其他提供特定功能的Spark系统,如流处理管道设计等。核心Spark系统包括:
- Spark :通用处理引擎,支持分布式数据集。
- Shark :提供SQL和Hive支持。
- Spark Streaming :使用与批处理相同语言的流处理。
- MLlib :可扩展的机器学习库。
- GraphX :用于处理图和集合。

这些系统可以对其他系统生成的弹性分布式数据集(RDD)进行操作,方便代码的协同处理。

Spark的组件包括Spark驱动程序(Driver)、集群管理器(Cluster Manager)和执行器(Executor)。驱动程序负责与集群管理器通信以执行操作,执行器负责实际的操作执行和数据管理。

1.2 RDD的概念与操作

在Spark中,数据以RDD的形式表示。RDD是对一组项目的抽象,分布在集群上,每个集群节点存储和管理RDD中的一部分项目。RDD可以从多种来源创建,如常规Scala集合或HDFS中的数据。

以下是一个从文本文件创建RDD的示例:

scala>
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值