Spark是一个开源集群计算系统,旨在加速数据分析快——同时加速运行和写。为了使程序运行得更快,Spark为内存中的集群计算提供了原语:你的作业可以反复加载数据到内存,其查询速度比基于磁盘的系统比如Hadoop MapReduce的更快。为了提高编程速度,Spark集成到Scala编程语言,让你操作分布式数据集(比如当地的集合)。您还可以使用Spark从Scala解释器交互查询大数据。
更多的细节和下载可以在Spark主页上获得。
原文:https://amplab.cs.berkeley.edu/projects/spark-lightning-fast-cluster-computing/