目录
Spark集群的配置:
准备三台有hdfs集群的节点
hadoop101 master和worker
hadoop102 worker
hadoop103 worker
1.下载
官网下载:http://spark.apache.org/downloads.html
所有版本:https://archive.apache.org/dist/spark/

2.上传
上传压缩文件到指定的目录如:
/opt/software
3.解压
将上传的文件解压到指定文件夹/opt/module:
tar -zxvf spark-2.2.0-bin-hadoop2.7.gz /opt/module/
4.修改配置文件
进入安装的spark/conf目录下
将spark-env.sh.template 和slaves.template复制一份
cp slaves.template slavescp spark-env.sh.template spark-env.sh
进入slaves,配置worker节点,我们将三台节点都作为worker使用

进入spark-env.sh
将Hadoop101节点作为Master
Spark提交任务的端口,默认就是7077
给每个worker的核数,也就是worker可以并行运行两个Task
设置每个worker可使用的内存

将配置好的spark发送到另外两台节点上,回到/opt/module目录,下面两种方式都可以
[root@hadoop101 module]# scp -r spark-2.2.0-bin-hadoop2.7/ hadoop102:/opt/module[root@hadoop101 module]# scp -r spark-2.2.0-bin-hadoop2.7/ hadoop102:$
环境变量配置
将spark添加到环境变量,添加以下内容到 /etc/profile

注意最后 source /etc/profile 刷新配置
5.启动spark集群
在master节点进入spark的sbin目录下
[root@hadoop101 sb

本文详细介绍了如何搭建Spark集群,包括下载、上传、解压、配置文件修改及启动步骤,并讲解了Spark的四种部署模式,如何提交Spark任务,以及通过SparkShell执行WordCount示例,是Spark入门学习的实用指南。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



