大数据技术原理与应用学习笔记（十）

最新推荐文章于 2021-08-23 00:18:42 发布

Ragnaros the Firelord

最新推荐文章于 2021-08-23 00:18:42 发布

阅读量455

点赞数

分类专栏：大数据学习笔记文章标签：大数据 spark

本文链接：https://blog.youkuaiyun.com/qq_43654282/article/details/117600211

版权

大数据学习笔记专栏收录该内容

14 篇文章

订阅专栏

大数据技术原理与应用学习笔记（十）

本系列历史文章
Spark

本系列历史文章

大数据技术原理与应用学习笔记（一）
大数据技术原理与应用学习笔记（二）
大数据技术原理与应用学习笔记（三）
大数据技术原理与应用学习笔记（四）
大数据技术原理与应用学习笔记（五）
大数据技术原理与应用学习笔记（六）
大数据技术原理与应用学习笔记（七）
大数据技术原理与应用学习笔记（八）
大数据技术原理与应用学习笔记（九）

Spark

Spark简介

Spark的特点：

运行速度快
容易使用
通用性
运行模式多样

Spark采用Scala语言¹为Spark主要编程语言，同时还支持Java、python、R语言编程。

Spark与Hadoop对比

Spark相对于Hadoop MapReduce的优点：

属于但不限于Map和Reduce，编程模型比MapReduce灵活
Spark提供内存计算，迭代效率更高。
Spark基于DAG的任务调度执行机制，优于MapReduce迭代机制

Spark生态系统

通常应用中大数据处理包括以下三个类型：

复杂的批处理（十分钟 ~ 数小时）例：MapReduce对等于Spark
基于历史数据的交互式查询（数十秒 ~ 数分钟）例：Impala对等于Spark SQL
基于事实数据流的数据处理（数百毫秒 ~ 数秒）例：Store对应于Spark Streaming

通常存在的问题：

不能无缝共享
难以维护
难以资源分配

而Spark一个软件栈满足不同应用场景。
Spark的组件如下：

Spark Core 内存计算，主要面向批处理
Spark SQL基于历史数据的交互式查询
Spark Streaming 实时流数据处理
Structed Streaming 流处理
MLlib 机器学习
GraphX 图计算

Spark运行架构

基本概念

RDD（弹性分布式数据集）：提供了一种高度受限的共享内存模型。
DAG（有向无环图）：反映了RDD间依赖关系。
Executor：运行在WorkNode（工作节点）的一个进程，负责运行Task。
Application：用户编写的Spark应用程序。
Task：运行在Executor上的工作单元。
Job：一个Job包含多个RDD及作用于相应RDD上的各种操作。
Stage（TaskSet）：每Job被分为多组Task，每组Task称Stage。

运行架构

运行架构
Executor优点：

多线程执行，开销小
Block Manager作为存储，减少I/O开销

基本流程

当Spark应用被提交时，首先为其构建运行环境，由Driver创建SparkContext（sc），由其负责和Cluster Manager（资源管理器）的通信并进行资源申请，任务分配及监控等。SparkContext会向Cluster Manager注册并申请运行Executor资源。
Cluster Manager为Executor分配资源，启动Executor进程，Executor运行情况随“心跳”发送到Cluster Manager。
SparkContext根据RDD的依赖构建DAG，并将DAG提交至DAG Scheduler，由其解析为Stage，然后把一个个TaskSet提交给底层调度器 Task Scheduler处理。Executor向SparkContext申请Task Scheduler将Task发放给Executor运行，并提供应用程序代码。
任务在Executor运行，把执行结果反馈给Cluster Manager，然后反馈给DAG Scheduler运行完毕后写入数据并释放所有资源。

Spark运行架构特点：

每个Application均有属于自己的Executor进程且在Application运行期间一直驻留，Executor以多线程方式运行Task。
Spark运行过程与资源管理器无关，只要获取Executor并保持通信即可。
Task采用了数据本地性和推测执行等优化机制。

RDD

RDD的设计背景：迭代化算法不同阶段会重用中间结果，不需要中间数据存储。
RDD概念：分布式对象集合。读入内存后分区存储（不可修改，只可转换）。
对RDD可执行两大动作：

Action：由RDD类型→非RDD类型
Transformation：由RDD→RDD

RDD的执行过程如下图示例：
在这里插入图片描述

RDD特性

高效的容错性，通过RDD父子依赖
中间结果持久化到内存
存放的数据可以为Java对象，避免了不必要的读写开销

RDD依赖关系和运行过程

依赖关系分为两种：

宽依赖：一个父RDD的一个分区对应一个子RDD的多个分区；
窄依赖：一个父RDD的分区对应一个子RDD分区或者多个父RDD分区对应一个子RDD的分区

可以通过宽窄依赖的区分划分Stage，每当遇到宽依赖，则断开；若遇到窄依赖则把当前RDD加入到Stage中。
将窄依赖尽量划分在同一Stage中，可实现流水线计算，从而使数据直接在内存中进行交换，避免磁盘I/O开销。

Spark SQL

Spark SQL在Hive兼容层面仅依赖HiveQL解析、Hive元数据，也就是说，从HQL被解析成抽象语法树（AST）起，就全部由Spark SQL接管了。Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责。
Spark SQL架构如下图所示：
在这里插入图片描述