Spark整合HDFS、WordCount示例

本文介绍如何整合Hadoop HA与Spark HA集群,并通过具体步骤演示如何配置环境、启动服务及运行WordCount示例程序。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原创转载请注明出处:http://agilestyle.iteye.com/blog/2294233

 

前提条件

Hadoop HA搭建完毕

Spark HA搭建完毕

 

整合步骤

cd到spark的conf的目录,修改spark-env.sh

 

添加如下

export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.4/etc/hadoop


 

保存退出,将spark-env.sh分发到其他两个节点

scp spark-env.sh hadoop-0000:/home/hadoop/app/spark-1.6.1-bin-hadoop2.6/conf
scp spark-env.sh hadoop-0001:/home/hadoop/app/spark-1.6.1-bin-hadoop2.6/conf

 

启动

首先启动Hadoop HA

http://hadoop-0000:50070 —— active


http://hadoop-0001:50070 —— standby


 

接着启动Spark HA(这里选择是hadoop-0002作为master)

http://hadoop-0002:8080 —— ALIVE


http://hadoop-0001:8080 —— STANDBY

 

执行spark-shell

spark-shell --master spark://hadoop-0002:7077


  

WordCount

为了运行WordCount,需要上传一个文件到HDFS

hadoop fs -put wordcount.txt /spark/wordcount


 

切回spark-shell,执行如下

val rdd = sc.textFile("hdfs://hadoop-0000:9000/spark/wordcount/wordcount.txt")


 

接着执行

rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

这条语句等价于

rdd.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b).collect


 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值