前提:已安装Hadoop(至少安装了HDFS)
一、安装scala
下载scala-2.10.4.tgz 地址:http://www.scala-lang.org/download/2.10.4.html#Software_Requirements
下载好后,使用rz命令上传到/home/tools下后解压
tar -zxf scala-2.10.4.tgz -C ../softwares/
cd切换到softwares目录下,对scala-2.10.4进行重命名:mv scala-2.10.4 scala
配置环境变量:
vim /etc/profile
添加scala的路径:
export SCALA_HOME=/home/softwares/scala
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin
然后重新刷新一下profile文件:source /etc/profile
验证scala是不是安装成功:
则成功。
二、安装spark
下载spark-1.6.2-bin-hadoop2.6.tgz 地址:http://spark.apache.org/downloads.html
下载好后同样使用rz命令上传到/home/tools下后解压:tar -zxf spark-1.6.2-bin-hadoop2.6.tgz -C ../../softwares/ /
cd切换到softwares目录下,对sprk的解压文件重命名为spark
配置环境变量:
export SPARK_HOME=/home/softwares/spark
export PATH=$PATH:$JAVA_HOME/bin:$MAVEN_HOME/bin:$FINGBUGS_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
修改配置文件:
1、修改spark下的conf下的文件:spark-env.sh
增加:
export JAVA_HOME=/home/softwares/jdk
export SCALA_HOME=/home/softwares/scala
export SPARK_HOME=/home/softwares/spark
**export SPARK_MASTER_IP=192.168.88.13(或者hostname)**
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
**export HADOOP_CONF_DIR=/home/softwares/hadoop/etc/hadoop (hadoop的配置文件路径)**
2、修改spark-defaults.conf
spark.master spark://hadoop:7077
spark.network.timeout 500 #可不写,方式网络原因链接超时
3、修改hadoop下的etc/hadoop/slaves文件:直接增加:hadoop 即hostname或者ip
4、修改spark下的conf下的slaves文件:直接增加:hadoop 即hostname或者ip
以上配置文件均需要重命名:如slaves.template修改为slaves
然后启动spark:
sbin/start-all.sh
后再浏览器中输入:hadoop:8080
出现:
成功.
然后进入spark的shell命令:bin/spak-shell
启动之前确保hdfs已启动。
然后可以在spark-shell中执行spark操作: