Spark简介:
Spark最初由美国加州大学伯克利分校(UC Berkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。2013年Spark加入Apache孵化器项
Spark的主要特点:
运行速度快:使用DAG执行引擎以支持循环数据流与内存计算
容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程
通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hivev等多种数据源目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)。
Spark如今已吸引了国内外各大公司的注意,如腾讯、淘宝、百度、亚马逊等公司均不同程度地使用了Spark来构建大数据分析应用,并应用到实际的生产环境中。

图:Spark与Hadoop对比
Hadoop与Spark的对比,Hadoop存在如下一些缺点:
1.表达能力有限
2.磁盘IO开销大
3.延迟高
4.任务之间的衔接涉及IO开销
5.在前一个任务执行完成之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务
而Spark在借鉴Hadoop MapReduce优点的同时,很好地解决了MapReduce所面临的问题 相比于Hadoop MapReduce。
Spark主要具有如下优点:
Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比Hadoop MapReduce更灵活 Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高 Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制。

Spark是由AMP实验室开发的内存计算大数据框架,它提供了快速、通用和交互式的编程体验,支持Scala、Java、Python和R语言。相较于Hadoop,Spark克服了表达能力有限、磁盘IO开销大、延迟高等问题,通过内存计算和DAG执行引擎提升了性能,成为Apache软件基金会的重要项目,被腾讯、淘宝等公司广泛应用于大数据分析。
158

被折叠的 条评论
为什么被折叠?



