Apache Spark:是用于大数据处理的集群计算框架。
Spark并没有以MapReduce作为执行引擎,而是使用了它自己的分布式运行环境在集群上执行工作。但是它与MapReduce在API和运行环境方面有许多相似之处。
Spark和Hadoop紧密集成,可以在YARN上运行,并支持Hadoop文件存储格式以及存储后端(HDFS)。
Spark最突出的表现在于它能够将作业与作业之间产生的大规模的工作数据集存储在内存中。在性能上超过了等效的MapReduce工作流,因为MapReduce数据集始终需要从磁盘上加载。
从Spark处理模型中获益最大的两种应用类型为迭代算法和交互式分析。
Spark还有出色的DAG引擎和用户体验。
DAG引擎:可以处理任意操作流水线,并为用户将其转换为单个作业。
用户体验:有丰富的API集,用于执行多种常见的数据处理任务。
Spark还是用于构建分析工具的出色平台,项目包括用于处理机器学习(MLlib)、图算法(GraphX)、流式计算(Spark Streaming)和Sql查询(Spark SQL)等模块。