学习Spark Core 内容介绍

本文全面介绍了Apache Spark的基础知识,包括Spark的定义、学习原因、体系结构与部署方式,并深入探讨了Spark Demo程序执行原理及核心算子功能。通过本文,读者可以了解到Spark如何基于内存提高大数据处理效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们先如下这张图的最底层开始学习:
在这里插入图片描述
首先明确学习新技术之前,我们需要了解下学习的对象,学习的原因、学习的主要内容以及学习的过程等,按照这种思路,我进行了如下的描述:
一、什么是Spark
请查看官网的解释:http://spark.apache.org/
Apache Spark™ is a unified analytics engine for large-scale data processing.
为什么要学习Spark?
1、因为目前发现了MapReduce本身存在着许多的缺点和不足,其实最主要是MapReduce的核心Shuffle,在运行过程中会产生大量I/O,一般而言,一次MapReduce程序运算,一般会产生6-7次的IO操作,效率比较低。
2、Spark的特点:基于内存
(1)快
(2)易用
(3)通用
(4)兼容性
二、Spark的体系结构与部署(重点)
1、体系结构:主从结构(单点故障)
官网提供了一张图 http://spark.apache.org/docs/latest/cluster-overview.html
2、安装部署
(1)伪分布
(2)全分布
3、Spark HA:两种方式
(1)基于文件目录: 用于开发测试
(2)基于ZooKeeper:用于生产环境
三、执行Spark Demo程序
1、执行Spark任务的工具
(1)spark-submit: 相当于 hadoop jar 命令 —> 提交MapReduce任务(jar文件 ) 提交Spark的任务(jar文件 )
(2)spark-shell:类似Scala的REPL命令行,类似Oracle中的SQL*PLUS,Spark的交互式命令行。
2、使用IDEA或者Scala IDE开发程序:WordCount
(1)Java版本
(2)Scala版本
四、Spark执行原理分析
1、分析WordCount程序处理过程
2、Spark提交任务的流程:类似Yarn调度任务的过程
五、Spark的算子(函数)
1、重要:什么是RDD(类)
2、RDD的算子
(1)Transformation:不会触发计算
(2)Action:会触发计算
3、RDD的缓存机制
4、RDD的容错机制
5、RDD依赖关系
六、Spark Core编程案例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT喂嘟盲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值