Spark（一）

最新推荐文章于 2025-05-03 09:07:35 发布

zx1122梦想的路上

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量194

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41481760/article/details/84546321

版权

Apache Spark：是用于大数据处理的集群计算框架。
Spark并没有以MapReduce作为执行引擎，而是使用了它自己的分布式运行环境在集群上执行工作。但是它与MapReduce在API和运行环境方面有许多相似之处。
Spark和Hadoop紧密集成，可以在YARN上运行，并支持Hadoop文件存储格式以及存储后端（HDFS）。

Spark最突出的表现在于它能够将作业与作业之间产生的大规模的工作数据集存储在内存中。在性能上超过了等效的MapReduce工作流，因为MapReduce数据集始终需要从磁盘上加载。
从Spark处理模型中获益最大的两种应用类型为迭代算法和交互式分析。
Spark还有出色的DAG引擎和用户体验。
DAG引擎：可以处理任意操作流水线，并为用户将其转换为单个作业。
用户体验：有丰富的API集，用于执行多种常见的数据处理任务。
Spark还是用于构建分析工具的出色平台，项目包括用于处理机器学习（MLlib）、图算法（GraphX）、流式计算（Spark Streaming）和Sql查询（Spark SQL）等模块。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。