大数据搭建Spark平台

本文详细介绍了如何在Hadoop集群上搭建Spark1.6.3版本的分布式集群,包括Spark安装包处理、配置文件修改、子节点同步、日志目录创建、环境变量设置、Hadoop集群开启、Spark集群启动以及监控界面检查等关键步骤。每个步骤都提供了相应的命令行操作指导,确保集群部署的正确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目

要求在Hadoop集群上搭建1.6.3版本的Spark分布式集群。(提示如下,注意每一步骤的代码与结果需截图在报告中体现)
1.Spark安装包处理,解压到/usr/local目录下,在master节点通过命令“wget -P /opt http://datasrc.tipdm.net:81/bigdata/spark/software/spark-1.6.3-bin-hadoop2.6.tgz”进行获取。
2.Spark配置文件修改(spark-env.sh、slaves、spark-default.conf),配置要求为:以master为主节点,Spark Master端口号为7077,Worker使用计算资源为单核512m,Executor使用计算资源为单核512m,限制每台机器只能有一个worker,spark日志相关信息与事件日志的保存路径均设置为HDFS文件系统上的/spark-logs。
3.子节点同步。
4.创建spark-default.conf配置文件中指定的Spark日志存放目录。
5.修改环境变量,并使其生效。
6.确保Hadoop集群已开启。
7.启动Spark集群。
8.查看Spark监控界面,确认集群部署状态无误。

---------------------------------------答案-----------------------------------------------

1)解压安装包到/usr/local下。
tar -zxf /opt/spark-1.6.3-bin-hadoop2.6.tgz -C /usr/local
(2)进入/usr/local/spark-1.6.3-bin-hadoop2.6/conf。
cd /usr/local/spark-1.6.3-bin-hadoop2.6/conf
(3)配置spark-env.sh文件,复制spark-env.sh.template文件,重命名为spark-env.sh。
cp spark-env.sh.template spark-env.sh

在文件末尾配置如下内容:

export JAVA_HOME=/usr/lib/jvm/java
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ 

如果找不到hadoop的位置,使用命令 hadoop version 可以看到hadoop的运行位置和版本
同时JAVA_HOME在hadoop配置文件中的hadoop-env.sh中可以找到

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_MEMORY=512m
export SPARK_WORKER_CORES=1
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_EXECUTOR_CORES=1
export SPARK_WORKER_INSTANCES=1

(4)配置slaves文件,复制slaves.template文件,重命名为slaves。
cp slaves.template slaves
在文件中配置如下内容:

slave1
slave2

(5)配置spark-defaults.conf文件,复制spark-defaults.conf.template文件,重命名为spark-defaults.conf。
cp spark-defaults.conf.template spark-defaults.conf
#在配置文件中添加如下内容:

spark.master                    spark://master:7077
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://master:8020/spark-logs
spark.history.fs.logDirectory       hdfs://master:8020/spark-logs

(6)将配置好的Spark目录同步到子节点。

scp -r /usr/local/spark-1.6.3-bin-hadoop2.6/ slave1:/usr/local
scp -r /usr/local/spark-1.6.3-bin-hadoop2.6/ slave2:/usr/local

(7)创建spark-logs目录
hdfs dfs -mkdir /spark-logs
(8)修改环境变量,在各节点的/etc/profile下添加Spark对应路径。

export SPARK_HOME=/usr/local/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
运行“source /etc/profile”使配置生效。D

(9)jps检查三个节点是否已开启Hadoop集群,未开启则在master通过命令开启。
$HADOOP_HOME/sbin/start-all.sh
(10)启动Spark集群
/usr/local/spark-1.6.3-bin-hadoop2.6/sbin/start-all.sh
(11)在浏览器查看,检查能否正常监控,两个子节点状态是否与要求一致。
查看地址:http://master:8080

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值