1.下载Spark安装包
http://www.apache.org/dyn/closer.lua/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz
2.上传解压安装包
上传spark-1.6.1-bin-hadoop2.6.tgz安装包到Linux上
解压安装包到指定位置
tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /usr/local
3.配置Spark
进入到Spark安装目录
cd /usr/local/spark-1.6.1-bin-hadoop2.6
进入conf目录并重命名并修改spark-env.sh.template文件
cd conf/
mv spark-env.sh.template spark-env.sh
vi spark-env.sh
在该配置文件中添加如下配置
export JAVA_HOME=/usr/java/jdk1.7.0_45
export SPARK_MASTER_IP=node01
export SPARK_MASTER_PORT=7077
保存退出
重命名并修改slaves.template文件
mv slaves.template slaves
vi slaves
在该文件中添加子节点所在的位置(Worker节点)
node02
node03
node04
保存退出
4.将配置好的Spark拷贝到其他节点上
scp -r spark-1.6.1-bin-hadoop2.6/ node02:/usr/local/
scp -r spark-1.6.1-bin-hadoop2.6/ node03:/usr/local/
scp -r spark-1.6.1-bin-hadoop2.6/ node04:/usr/local/
5.Spark集群配置完毕,目前是1个Master,3个Work,在node01上启动Spark集群
/usr/local/spark-1.6.1-bin-hadoop2.6/sbin/start-all.sh
ps:启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进程,登录Spark管理界面查看集群状态(主节点):http://node01:8080
大家也可以配置高可用,这里不介绍了
6.执行spark自带的程序
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://pdm:7077 \
--executor-memory 1G \
--total-executor-cores 1 \
/home/hadoop/develop_env/spark-1.6.3-bin-hadoop2.6/lib/spark-examples-1.6.1-hadoop2.6.0.jar \
100