Spark提供了一站式的数据解决方案
Spark是一个高速,通用大数据计算处理引擎。简单明了,低调中包涵了野心。
官网继续介绍亮点:
1.速度快,Spark直接上数据,超过Hadoop内存MapReduce速度100+以上
,又或者磁盘MapReduce速度10+以上。why?Spark拥有高级DAG(有向无环图)引擎支持数据循环利用,多步数据管道以及in-memory computing。
其实Spark用到了减少IO以及其精华RDD。其实我们在上一篇介绍Hadoop的时候提到了虽然MR v2解决了MR v1的一些问题,但是由于其对HDFS的频繁操作(包涵了计算临时结果持久化,数据备份以及shuffle等)导致了磁盘I/O成为系统瓶颈,因而只适用于离线数据处理,无法支持大规模实时数据处理能力,从而也为其埋下了重大隐患,被Spark乘胜追击。
2.易用性,支持Java, Scala, Python, R. 简单,高效
。还记得我们介绍
hadoop的时候提到案例word count,spark只用下面2行甚至可以简化到1行代码就实现hadoop几十,上百行的功能,不得感慨其之强大,这里提一下之所以着么简单是得益于函数式编程以及RDD.
真是让Hadoop老大哥的面子忘哪里搁啊??
3.功能强大,涵盖数据各个领域: SQL, Streaming, Analytics, Machine
Learning, Graph X, 野心勃勃,一统大数据江山
。
4.兼容各大生态圈,可以运行在Hadoop, Mesos单机或者云端。同时支持访问多种多样的数据源:HDFS, Cassandra, HBase, S3
.
可以看出,Spark的团队除了包涵技术大拿,还有顶级的宣传广告达人,看完了这些介绍,你想不用Spark都难。换句话说,Spark提供了一站式大数据解决方案: