spark is a fast and general-purpose cluster computing system
是一个 “快速” 和 综合目标/多目标?集群计算系统
Apache Spark 是一个新兴的大数据处理引擎,主要特点是提供了一个“集群的分布式内存抽象”,以支持需要工作集的应用。
这个抽象就是RDD(Resilient Distributed Dataset),RDD就是一个不可变的带分区的记录集合。Spark提供了RDD上的两类操作,转换和动作。“转换”用来定义一个新的RDD,包括map,flatMap,filter,union,sample,join,groupByKey,cogroup,ReduceByKey,cros,sortByKey,mapValues等,动作是返回一个结果,包括collect,reduce,count,save,lookupKey
Spark的API简单易用,以WordCount示例:
val spark = new SparkCoutext(master,appName,[sparkHome],[jars])
val file = spark.textFile(“hdfs://...”)
http://www.zhihu.com/question/26568496
1、MapReduce :详解shuffle (copy、sort、merge)过程
http://blog.youkuaiyun.com/luyee2010/article/details/8624469
Apache Hadoop for window platform
http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform
在Linux系统上安装 Spark
其中sacla的下载根据系统的位数 (在官网上有linux系统的版本)
修改日志级别
http://blog.youkuaiyun.com/huanbia/article/details/51315889
一般都是要先装hadoop的,如果你只是玩Spark On Standalon的话,就不需要,如果你想玩Spark On Yarn或者是需要去hdfs取数据的话,就应该先装hadoop