大数据技术原理与应用学习笔记(十)

本系列历史文章

大数据技术原理与应用学习笔记(一)
大数据技术原理与应用学习笔记(二)
大数据技术原理与应用学习笔记(三)
大数据技术原理与应用学习笔记(四)
大数据技术原理与应用学习笔记(五)
大数据技术原理与应用学习笔记(六)
大数据技术原理与应用学习笔记(七)
大数据技术原理与应用学习笔记(八)
大数据技术原理与应用学习笔记(九)

Spark

Spark简介

Spark的特点:

  • 运行速度快
  • 容易使用
  • 通用性
  • 运行模式多样

Spark采用Scala语言1为Spark主要编程语言,同时还支持Java、python、R语言编程。

Spark与Hadoop对比

Spark相对于Hadoop MapReduce的优点:

  • 属于但不限于Map和Reduce,编程模型比MapReduce灵活
  • Spark提供内存计算,迭代效率更高。
  • Spark基于DAG的任务调度执行机制,优于MapReduce迭代机制

Spark生态系统

通常应用中大数据处理包括以下三个类型:

  • 复杂的批处理(十分钟 ~ 数小时)例:MapReduce对等于Spark
  • 基于历史数据的交互式查询(数十秒 ~ 数分钟)例:Impala对等于Spark SQL
  • 基于事实数据流的数据处理(数百毫秒 ~ 数秒)例:Store对应于Spark Streaming

通常存在的问题:

  • 不能无缝共享
  • 难以维护
  • 难以资源分配

而Spark一个软件栈满足不同应用场景。
Spark的组件如下:

  • Spark Core 内存计算,主要面向批处理
  • Spark SQL基于历史数据的交互式查询
  • Spark Streaming 实时流数据处理
  • Structed Streaming 流处理
  • MLlib 机器学习
  • GraphX 图计算

Spark运行架构

基本概念

  • RDD(弹性分布式数据集):提供了一种高度受限的共享内存模型。
  • DAG(有向无环图):反映了RDD间依赖关系。
  • Executor:运行在WorkNode(工作节点)的一个进程,负责运行Task。
  • Application:用户编写的Spark应用程序。
  • Task:运行在Executor上的工作单元。
  • Job:一个Job包含多个RDD及作用于相应RDD上的各种操作。
  • Stage(TaskSet):每Job被分为多组Task,每组Task称Stage。

运行架构

运行架构
Executor优点:

  • 多线程执行,开销小
  • Block Manager作为存储,减少I/O开销

基本流程

  • 当Spark应用被提交时,首先为其构建运行环境,由Driver创建SparkContext(sc),由其负责和Cluster Manager(资源管理器)的通信并进行资源申请,任务分配及监控等。SparkContext会向Cluster Manager注册并申请运行Executor资源。
  • Cluster Manager为Executor分配资源,启动Executor进程,Executor运行情况随“心跳”发送到Cluster Manager。
  • SparkContext根据RDD的依赖构建DAG,并将DAG提交至DAG Scheduler,由其解析为Stage,然后把一个个TaskSet提交给底层调度器 Task Scheduler处理。Executor向SparkContext申请Task Scheduler将Task发放给Executor运行,并提供应用程序代码。
  • 任务在Executor运行,把执行结果反馈给Cluster Manager,然后反馈给DAG Scheduler运行完毕后写入数据并释放所有资源。

Spark运行架构特点:

  • 每个Application均有属于自己的Executor进程且在Application运行期间一直驻留,Executor以多线程方式运行Task。
  • Spark运行过程与资源管理器无关,只要获取Executor并保持通信即可。
  • Task采用了数据本地性和推测执行等优化机制。

RDD

RDD的设计背景:迭代化算法不同阶段会重用中间结果,不需要中间数据存储。
RDD概念:分布式对象集合。读入内存后分区存储(不可修改,只可转换)。
对RDD可执行两大动作:

  • Action:由RDD类型→非RDD类型
  • Transformation:由RDD→RDD

RDD的执行过程如下图示例:
在这里插入图片描述

RDD特性

  • 高效的容错性,通过RDD父子依赖
  • 中间结果持久化到内存
  • 存放的数据可以为Java对象,避免了不必要的读写开销

RDD依赖关系和运行过程

依赖关系分为两种:

  • 宽依赖:一个父RDD的一个分区对应一个子RDD的多个分区;
  • 窄依赖:一个父RDD的分区对应一个子RDD分区或者多个父RDD分区对应一个子RDD的分区

可以通过宽窄依赖的区分划分Stage,每当遇到宽依赖,则断开;若遇到窄依赖则把当前RDD加入到Stage中。
将窄依赖尽量划分在同一Stage中,可实现流水线计算,从而使数据直接在内存中进行交换,避免磁盘I/O开销。

Spark SQL

Spark SQL在Hive兼容层面仅依赖HiveQL解析、Hive元数据,也就是说,从HQL被解析成抽象语法树(AST)起,就全部由Spark SQL接管了。Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责。
Spark SQL架构如下图所示:
在这里插入图片描述

Spark部署应用方式

  • Standalone:类似于MapReduce1.0,slot为资源分配单位。
  • Spark on Mesos
  • Spark on YARN

Hadoop、Spark统一部署的原因:

  • 部分功能Spark无法替代
  • 鲜柚应用多基于Hadoop开发

好处:

  • 资源方便按需伸缩
  • 不用负载应用混搭
  • 共享底层存储,避免数据跨集群迁移

Spark编程实践

关于Spark编程实践部分请参考厦大数据库博客:Spark


  1. Scala是一门多范式的编程语言,一种类似java的编程语言,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。 ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值