探究hadoop--spark

Apache Spark作为一款高效的大数据处理引擎,提供了集群分布式内存抽象——RDD,支持多种数据处理操作,如转换和动作等。本文介绍了Spark的核心特性,并通过WordCount示例展示了其简单易用的API。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

spark is a fast and general-purpose cluster computing system

 是一个 “快速” 和  综合目标/多目标?集群计算系统

 

Apache Spark 是一个新兴的大数据处理引擎,主要特点是提供了一个“集群的分布式内存抽象”,以支持需要工作集的应用。

这个抽象就是RDD(Resilient Distributed Dataset),RDD就是一个不可变的带分区的记录集合。Spark提供了RDD上的两类操作,转换和动作。“转换”用来定义一个新的RDD,包括map,flatMap,filter,union,sample,join,groupByKey,cogroup,ReduceByKey,cros,sortByKey,mapValues等,动作是返回一个结果,包括collect,reduce,count,save,lookupKey

 

Spark的API简单易用,以WordCount示例:

   val spark = new SparkCoutext(master,appName,[sparkHome],[jars])

   val file  = spark.textFile(“hdfs://...”)

http://www.zhihu.com/question/26568496

  

 

 

 

 

1、MapReduce :详解shuffle (copy、sort、merge)过程

http://blog.youkuaiyun.com/luyee2010/article/details/8624469

 

 

 

Apache Hadoop for window platform

http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform

 

 

在Linux系统上安装 Spark 

http://blog.youkuaiyun.com/lin360580306/article/details/51233397#spark%E7%9A%84%E5%AE%89%E8%A3%85%E6%95%99%E7%A8%8B

 

其中sacla的下载根据系统的位数 (在官网上有linux系统的版本)

 

修改日志级别

http://blog.youkuaiyun.com/huanbia/article/details/51315889

 

 

一般都是要先装hadoop的,如果你只是玩Spark On Standalon的话,就不需要,如果你想玩Spark On Yarn或者是需要去hdfs取数据的话,就应该先装hadoop
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值