大数据学习(09)--spark学习

本文深入探讨了Spark作为大数据处理平台的优势,包括其快速的数据处理能力、与Hadoop的对比,以及Spark生态系统的构成。文章详细讲解了Spark的运行框架、RDD运行原理,并介绍了SparkSQL的使用。此外,还提供了Spark的部署方式、从Hadoop+Storm转向Spark的策略,以及Spark编程实践指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1.spark介绍

1.1 spark介绍

在这里插入图片描述
在这里插入图片描述

spark不仅仅是一个计算框架,而是一个大数据处理的平台,或者说生态。

1.2 scale介绍

在这里插入图片描述

1.3 spark和Hadoop比较

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

spark将运行的中间结果写入内存,而不是如MapReduce那样每次都写入磁盘,所以速度非常快,那么肯定就有疑问,内存相比于磁盘来说,那么小,如何解决大数据的中间结果的存储,spark是采用优先写内存,内存写满后,才往磁盘中写入。

2.spark生态系统

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.spark运行框架

3.1 基本概念

在这里插入图片描述

3.2 架构的设计

在这里插入图片描述
在这里插入图片描述

3.3 spark运行基本流程

在这里插入图片描述

3.4 spark运行原理

在这里插入图片描述

3.5 RDD运行原理

3.5.1 设计背景

在这里插入图片描述

3.5.2 RDD概念和特性

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.3 RDD之间的依赖关系

在这里插入图片描述

3.5.4 stage的划分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5.5 RDD的运行过程

在这里插入图片描述

4.spark SQL

4.1 shark的介绍

在这里插入图片描述

4.2 spark SQL的介绍

在这里插入图片描述
在这里插入图片描述

5.spark的部署和运行

5.1 三种部署方式

在这里插入图片描述

5.2 从Hadoop+Strom 架构转向spark架构

在这里插入图片描述
在这里插入图片描述

5.3 Hadoop 和spark的统一部署

在这里插入图片描述

6.spark编程实践

参考博客

6.1 spark安装

在这里插入图片描述
在这里插入图片描述

6.2 启动spark shell

在这里插入图片描述

6.3 spark RDD的操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.4 spark应用程序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值