Spark的初学习

给我整点护发素

已于 2024-10-15 14:44:39 修改

阅读量429

点赞数 3

文章标签： spark 学习大数据

于 2024-10-15 14:42:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_86341340/article/details/142953617

版权

1.Spark框架与Hadoop的不同

Spark相对于MapReduce又巨大的性能优势，官方说法内存中快了一百倍。

但是Hadoop由于HDFS和YARN是许多大数据体系的核心框架，所以不能代替。

2.Spark的框架模块

Spark Core:Spark的核心，Spak核心功能均由SparkCore模块提供，是Spark运行的基础。Spark Core以RDD为数据抽象，提供Pvthon、Java、Scala、R语言的API，可以编程进行海量离线数据批处理计算。
Sparksql:基于sparkcore之上，提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理，SparksQl本身针对离线计算场景。同时基于SparksQL，Spark提供Structuredstreaming模块，可以以SparksQl为基础，进行数据的流式计算。
SparkStreaming:以SparkCore为基础，提供数据的流式计算功能。
MLlib:以sparkcore为基础，进行机器学习计算，内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习讦算。
GraphX:以sparkcore为基础，进行图计算，提供了大量的图计算API，方便用于以分布式计算模式进行图计算。

3.Spark的运行模式

本地模式（单机）：开发和测试

集群模式（standalone，hadoop yarn，kubernetes）：生产环境

云模式：运行在云平台上

4.Spark的架构角色（对比yarn）

5.Spark能解决哪些问题？

海量数据的计算，可以进行离线批处理以及实时流计算。

给我整点护发素

博客等级

码龄1年

26
原创

248
点赞

193
收藏

156
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

Flink执行sql时报错
蕾蕾shui不醒: 请问怎么解决
Flink执行sql时报错
优快云-Ada助手: 推荐 MySQL入门技能树：https://edu.youkuaiyun.com/skill/mysql?utm_source=AI_act_mysql
关于Hadoop中MapReduce的执行过程详解
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Maven学习
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Maven学习
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天最佳新人】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619282603。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。