探究hadoop--spark

最新推荐文章于 2025-11-26 20:23:01 发布

原创最新推荐文章于 2025-11-26 20:23:01 发布 · 219 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #操作系统

spark 专栏收录该内容

0 篇文章

订阅专栏

Apache Spark作为一款高效的大数据处理引擎，提供了集群分布式内存抽象——RDD，支持多种数据处理操作，如转换和动作等。本文介绍了Spark的核心特性，并通过WordCount示例展示了其简单易用的API。

spark is a fast and general-purpose cluster computing system

是一个 “快速” 和综合目标/多目标？集群计算系统

Apache Spark 是一个新兴的大数据处理引擎，主要特点是提供了一个“集群的分布式内存抽象”，以支持需要工作集的应用。

这个抽象就是RDD（Resilient Distributed Dataset）,RDD就是一个不可变的带分区的记录集合。Spark提供了RDD上的两类操作，转换和动作。“转换”用来定义一个新的RDD，包括map,flatMap,filter，union,sample，join,groupByKey，cogroup，ReduceByKey，cros，sortByKey,mapValues等，动作是返回一个结果，包括collect，reduce，count，save，lookupKey

Spark的API简单易用，以WordCount示例：

val spark = new SparkCoutext（master，appName，[sparkHome]，[jars]）

val file = spark.textFile（“hdfs://...”）

http://www.zhihu.com/question/26568496

1、MapReduce :详解shuffle (copy、sort、merge)过程

http://blog.youkuaiyun.com/luyee2010/article/details/8624469

Apache Hadoop for window platform

http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform

在Linux系统上安装 Spark

http://blog.youkuaiyun.com/lin360580306/article/details/51233397#spark%E7%9A%84%E5%AE%89%E8%A3%85%E6%95%99%E7%A8%8B

其中sacla的下载根据系统的位数（在官网上有linux系统的版本）

修改日志级别

http://blog.youkuaiyun.com/huanbia/article/details/51315889

一般都是要先装hadoop的，如果你只是玩Spark On Standalon的话，就不需要，如果你想玩Spark On Yarn或者是需要去hdfs取数据的话，就应该先装hadoop