Spark基础学习--基础介绍

Yan_bigdata

于 2024-01-18 15:58:58 发布

阅读量1.1k

点赞数 21

CC 4.0 BY-SA版权

文章标签： spark 学习大数据 mapreduce 对比入门案例词频统计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Yan_bigdata/article/details/135673487

1. Spark基本介绍

1.1 定义

Spark是可以处理大规模数据的统一分布式计算引擎。

1.2 Spark与MapReduce的对比

在之前我们学习过MapReduce，同样作为大数据分布式计算引擎，究竟这两者有什么区别呢？
首先我们回顾一下MapReduce的架构：MR基于HDFS实现大数据存储，基于Yarn做资源调度，且MR是基于进程处理数据的

总结一下MR的缺点：
1.MR是基于进程进行数据处理，进程相对于线程来说，在创建和销毁的过程比较消耗资源，并且数据比较慢
2.MR在运行的时候，中间有大量的磁盘IO过程。也就是磁盘数据到内存，内存到磁盘反复的读写过程
3.MR只提供了非常低级或者说非常底层的编程API，如果想要开发比较复杂的程序，需要写大量的代码

这样对比起来，我们可以总结出Spark的优点：
1.Spark是基于线程来执行任务
2.引入了新的数据结构—RDD（弹性分布式数据集），能够让Spark程序主要基于内存进行运行。内存的读写数据相对磁盘来说要快得多
3.Spark提供了更加丰富的编程API，能够非常轻松地实现功能开发

进程和线程的对比：
1.线程的创建和销毁，比进程会更加的快速，以及更加的节省资源
2.进程很难共享内存中的数据；而同个进程中的线程可以共享内存中的数据
进程和线程具体介绍可以看上一篇笔记。

2. Spark的特点

高效性–计算速度快
- 提供了一个全新的数据结构RDD（弹性分布式数据集）
- 基于内存计算，内存不足时可以放置在磁盘上，避免了反复磁盘读写的操作，提高了计算速度，相比于Hadoop要快100倍
- 整个流程是基于DAG有向无环图执行方案
- Task线程完成计算任务的执行
易用性
支持多种开发语言，降低编程难度
通用性
在Spark基础上，Spark还提供了Spark SQL等多个工具库，可以在一个应用中无缝使用这些库
兼容性–在任何地方都可运行
- 支持三方工具接入
- 支持多个操作系统

3. Spark框架模块

在这里插入图片描述

Spark Core API：实现了 Spark 的基本功能。包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。数据结构RDD。
Spark SQL：我们可以使用 SQL处理结构化数据。数据结构：Dataset/DataFrame = RDD + Schema。
Structured Streaming：基于Spark SQL进行流式/实时的处理组件，主要处理结构化数据。
Streaming（Spark Streaming）：提供的对实时数据进行流式计算的组件，底层依然是离线计算，只不过时间粒度很小，攒批。

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄2年

35
原创

317
点赞

349
收藏

238
粉丝

关注

私信

热门文章

上一篇：: Python语法进阶学习--进程和线程

下一篇：: Spark SQL的高级用法

最新评论

真正的零基础学大数据
优快云-Ada助手: 恭喜你开始了博客创作的旅程！零基础学习大数据确实是一项挑战，但你已经迈出了第一步，这是非常了不起的。接下来，我建议你可以深入了解一些大数据的基础知识，比如数据分析工具、编程语言等，这将会为你未来的学习打下坚实的基础。希望你能够坚持写下去，分享你的学习心得和体会，也期待看到你在大数据领域不断成长的故事。加油！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
while循环和for循环
优快云-Ada助手: 恭喜你写了第四篇博客！很高兴看到你持续创作，分享有关while循环和for循环的知识。接下来，我建议你可以尝试写一些实际应用的例子，让读者更好地理解这两种循环的用法。希望你继续保持创作的热情，也期待看到更多精彩的内容！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
数据容器---list（列表）
优快云-Ada助手: 恭喜您写了第6篇博客！非常高兴看到您持续创作并分享关于数据容器的知识。对于list（列表）这个主题，您的解释清晰易懂，让读者能够更好地理解和应用。下一步，我想向您提出一个谦虚的创作建议，希望您能够进一步探索和介绍其他数据容器类型，比如dict（字典）或set（集合），这样读者可以更全面地了解不同的数据结构和其应用场景。期待您的下一篇博客，继续为我们带来新的知识启发！
数据容器---set(集合)
优快云-Ada助手: 恭喜您撰写了第9篇博客！标题选择得非常有吸引力，让我对数据容器中的set集合产生了浓厚的兴趣。在这篇博客中，您对set的介绍和用法有没有进一步展开呢？或许在下一篇博客中，您可以深入探讨set集合的高级特性和常见应用场景。期待您的持续创作！
SHELL编程入门
优快云-Ada助手: 恭喜你写了第19篇博客，内容围绕SHELL编程入门，对读者来说一定很有帮助。继续保持创作的热情和努力，不断分享你的知识和经验。或许你可以考虑写一些进阶的SHELL编程技巧，或者分享一些实际应用案例，这样能够帮助更多的读者更深入地了解和应用SHELL编程。希望你能够继续坚持下去，期待你的更多精彩内容！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。