1、 下载相关文件
1)下载scala压缩包,进入链接http://www.scala-lang.org/
2)下载jdk压缩包,进入链接http://www.oracle.com/technetwork/java/javase/downloads/index.html,下载最新版jdk,若为64位系统请下载jdk-8u91-linux-x64.tar.gz(本人下载版本为8u91,系统为64位),32位系统下载jdk-8u91-linux-i586.tar.gz,下载完成后解压到当前目录下。
3)下载spark压缩包,进入链接https://spark.apache.org/downloads.html,选择当前最新版本人为1.6.2,点击下载。
2、移动安装包并解压
1)将所有下载的文件首先存储在:/home/liuyanyun/resources
2) 并进行解压文件:tar zxvf 文件名
3) 将解压文件转移到/home/csu目录下
mv jdk1.8.0_60 /home/csu/jdk1.8.0_60
mv scala-2.12.6 /home/csu/scala-2.12.6
mv spark-1.6.1-bin-hadoop2.6 /home/csu/spark-hadoop
3、配置环境变量,编辑/etc/profile:sudo vi /etc/profile
#JDK
export JAVA_HOME=/home/csu/jdk1.8.0_60
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH
# Scala
export SCALA_HOME=/home/csu/scala-2.12.6
export PATH=${SCALA_HOME}/bin:$PATH
# Spark
export SPARK_HOME=/home/csu/spark-hadoop/
#PythonPath
export PYTHONPATH=/home/csu/spark-hadoop/python
source /etc/profile,使配置文件生效
4、启动Scala
进入“/home/csu/scala-2.12.6”工作路径下,执行/bin/scala命令,即可启动Scala,退出scala(:quit),注意命令前面加:
5、Spark集群的安装与配置
1)配置Linux环境变量:vi ~/.bash_profile
## spark
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HDFS_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
source ~/.bash_profile, 使配置文件生效
2)配置spark-env.sh环境变量,进入 /conf/spark-env.sh ,输入:
export SPARK_MASTER IP=192.168.35.100
export JAVA_HOME=/home/csu/jdk1.8.0_60/
export SCALA_HOME=/home/csu/scala-2.12.6/
exportSPARK_DAEMON_JAVA_OPIS='-Dspark.history.fs.logDirectory=hdfs:///user/spark'
3)配置slaves环境变量,进入 /conf/slaves ,输入:
master
slave0
4)将在master安装好的Spark复制到Slave节点
scp –r~/ spark-hadoop csu:slave0: /home/csu
6、 启动并验证 Spark在master环境下,进入到Spark安装主目录下
(cd /home/csu/spark-hadoop)
执行sbin/start-all.sh
通过jps查看master和slave0上的进程,增加了一个Worker进程
netstat –nlopt ---查看打开的网络连接
7、进入Spark:./pyspark –masterspark://192.168.35.100:7077
