大数据生态和Spark简介

最新推荐文章于 2025-12-16 08:46:53 发布

原创最新推荐文章于 2025-12-16 08:46:53 发布 · 222 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #大数据

笔记专栏收录该内容

1 篇文章

订阅专栏

Spark是由AMP实验室开发的内存计算大数据框架，它提供了快速、通用和交互式的编程体验，支持Scala、Java、Python和R语言。相较于Hadoop，Spark克服了表达能力有限、磁盘IO开销大、延迟高等问题，通过内存计算和DAG执行引擎提升了性能，成为Apache软件基金会的重要项目，被腾讯、淘宝等公司广泛应用于大数据分析。

Spark简介：

Spark最初由美国加州大学伯克利分校（UC Berkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。2013年Spark加入Apache孵化器项

Spark的主要特点：

运行速度快：使用DAG执行引擎以支持循环数据流与内存计算

容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程

通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件

运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hivev等多种数据源目后发展迅猛，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（Hadoop、Spark、Storm）。

Spark如今已吸引了国内外各大公司的注意，如腾讯、淘宝、百度、亚马逊等公司均不同程度地使用了Spark来构建大数据分析应用，并应用到实际的生产环境中。

图：Spark与Hadoop对比

Hadoop与Spark的对比，Hadoop存在如下一些缺点：

1.表达能力有限

2.磁盘IO开销大

3.延迟高

4.任务之间的衔接涉及IO开销

5.在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务

而Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题相比于Hadoop MapReduce。

Spark主要具有如下优点：

Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活 Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高 Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。