Ubuntu下spark开发(Local模式)
1、下载scala、spark、jdk并解压至/opt/路径下
scala下载地址: http://www.scala-lang.org/ 解压路径:/opt/scala
spark下载地址:http://spark.apache.org/downloads.html 解压路径:/opt/spark-hadoop
jdk下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 解压路径:/opt/jdk
2、配置环境变量/etc/profile
gedit /etc/profile
加入以下配置:
#Seeting JDK JDK环境变量
export JAVA_HOME=/opt/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH
#Seeting Scala Scala环境变量
export SCALA_HOME=/opt/scala-hadoop
export PATH=${SCALA_HOME}/bin:$PATH
#setting Spark Spark环境变量
export SPARK_HOME=/opt/spark-hadoop/
#PythonPath 将Spark中的pySpark模块增加的Python环境中
export PYTHONPATH=/opt/spark-hadoop/python
重启电脑,使/etc/profile永久生效,临时生效,打开命令窗口,执行 source /etc/profile 在当前窗口生效
3、测试安装结果
(1)打开终端,切换到spark-hadoop根目录
执行bin/spark-shell
出现scala说明Scala连接到Spark
(2)执行bin/pyspark
出现>>>说明Python连接到spark
4、独立模式
(1)运行master
执行sbin/start-master.sh
打开localhost:8080
(当前图中completed前应该为0)
(2)运行slave
执行sbin/start-slave.sh spark://ubuntu:7077
语句最后一个url为上面图中的master的地址
可以看到已经启动了一个worker,可以继续按上述步骤添加
(3)在spark-hadoop/conf下新建一个spark-env.sh 可复制该目录下的spark-env.sh.template
加入以下配置
运行bin/spark-shell