spark伪分布式安装与测试

本文详细介绍如何在本地环境中安装和配置Scala 2.11.5及Spark 1.2.0,并设置Spark伪分布式运行环境。文章还介绍了如何通过一系列步骤验证Spark集群是否正确配置,包括启动Spark伪分布式、检查Hadoop集群状态、使用Spark Shell进行简单的MapReduce任务等。

1、下载scala2.11.5版本,下载地址为:http://www.scala-lang.org/download/2.11.5.html

2、安装和配置scala:

第一步:上传scala安装包 并解压

28175936_7eoe.jpg

28175936_ik5q.jpg

第二步 配置SCALA_HOME环境变量到bash_profile

28175936_ABZO.jpg

第三步 source 使配置环境变量生效:

28175937_jrTP.jpg

第四步 验证scala:

28175937_Kb5a.jpg

3、下载spark 1.2.0,具体下载地址:http://spark.apache.org/downloads.html

4、安装和配置spark:

第一步  解压spark:

28175937_3CGT.jpg

28175937_f2Uw.jpg

第二步 配置SPARK_HOME环境变量:

28175937_hxok.jpg


第三步 使用source生效:

28175937_qTEr.jpg


进入spark的conf目录:

第四步 修改slaves文件,首先打开该文件:

28175937_jgbT.jpg

28175937_BiUp.jpg

slaves修改后:

28175937_V4Ws.jpg

第五步 配置spark-env.sh

首先把spark-env.sh.template拷贝到spark-env.sh:

28175937_Al6p.jpg

然后 打开“spark-env.sh”文件:

28175937_dN3T.jpg

spark-env.sh文件修改后:

28175937_UwZ0.jpg

5、启动spark伪分布式帮查看信息:

第一步 先保证hadoop集群或者伪分布式启动成功,使用jps看下进程信息:

28175938_lbBk.jpg

如果没有启动,进入hadoop的sbin目录执行 ./start-all.sh

第二步 启动spark:

进入spark的sbin目录下执行“start-all.sh”:

28175938_x8qC.jpg

此刻 我们看到有新进程“Master” 和"Worker"

我们访问“http://master:8080/”,进如spark的web控制台页面:

28175938_wZFa.jpg

从页面上可以看到一个Worker节点的信息。


我们进入spark的bin目录,使用“spark-shell”控制台:

28175938_VyAc.jpg

28175938_1RvC.jpg

通过访问"http://master:4040",进入spark-shell web控制台页面:

28175938_2ZKm.jpg


6、测试spark伪分布式:

我们使用之前上传到hdfs中的/data/test/README.txt文件进行mapreduce

取得hdfs文件:

28175938_E7z3.jpg

对读取的文件进行一下操作:

28175938_7Px5.jpg


使用collect命令提交并执行job:

readmeFile.collect

28175938_GL1f.jpg


查看spark-shell web控制台:

28175938_vbCT.jpg


states:

28175939_o6IA.jpg

端口整理:

master端口是7077

master webui是8080

spark shell webui端口是4040

转载于:https://my.oschina.net/u/559635/blog/476339

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值