【数据仓库】spark大数据处理框架

最新推荐文章于 2025-02-28 16:50:39 发布

花菜回锅肉

最新推荐文章于 2025-02-28 16:50:39 发布

阅读量1.6k

点赞数 12

分类专栏：大数据数据仓库文章标签：数据仓库 spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hubuwch/article/details/144783011

版权

文章目录

概述

Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的算法场景中。

Spark专注于数据的处理分析，而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。

大数据问题场景包含以下三种：

复杂的批量数据处理
基于历史数据的交互式查询
基于实时数据流的数据处理

Spark技术栈基本可以解决以上三种场景问题。

架构

在这里插入图片描述

1 spark Core :spark的核心模块，是spark运行基础。以RDD为数据抽象，提供python、java、scala、R语言的api,可以通过RDD编程进行海量离线数据批处理计算。

2 Spark SQL：基于Spark Core，提供结构化数据处理功能。可以使用SQL语言对数据进行处理，可用于离线计算场景。同时基于Spark SQL提供了StructuredStreaming模块，可以使用时SQL进行流式计算。

3 sparkStreaming : 以Spark Core为基础，提供数据的流式计算功能

4 MLlib:以spark Core为基础，进行机器学习计算，内置大量机器学习库和API算法等。

5 Graphx：以spark Core为基础，进行图计算，提供大量图计算的API，方便以分布式资源进行图计算。

6 spark底层的文件存储还是基于hdfs分布式文件系统，支持多种部署方式。

spark 架构角色

在这里插入图片描述

从两个层面理解：

资源管理层面：（典型的Master-Worker架构）

管理者：即Master角色，只能有一个

工作者：即Worker角色，可以有多个。一个worker在一个分布式节点上，监测当前节点的资源状况，向master节点汇总。

任务执行层面：

某任务管理者：Driver角色，一个任务只能有一个

某任务执行者：Executor角色，可以有多个

在特殊场景下（local模式）,Driver即是管理者又是执行者

下载

下载地址：

http://spark.apache.org/downloads.html

或者

https://archive.apache.org/dist/spark/

选择合适自己的版本下载。

Spark2.X预编译了Scala2.11(Spark2.4.2预编译Scala2.12)

Spark3.0+预编译了Scala2.12

该教程选择Spark3.2.1版本，其中预编译了Hadoop3.2和Scala2.13，对应的包是 spark-3.2.1-bin-hadoop3.2-scala2.13.tgz，但这里的预编译Hadoop不是指不需要再安装Hadoop

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。