Ubuntu下spark开发（Local模式）

最新推荐文章于 2024-03-30 21:11:28 发布

原创最新推荐文章于 2024-03-30 21:11:28 发布 · 631 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#ubuntu #spark

spark 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了在Ubuntu系统中进行Spark开发的步骤，包括下载scala、spark、jdk并解压，配置环境变量，测试安装结果，以及如何在Local模式下启动master和slave节点，确保Python和Scala能连接到Spark。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Ubuntu下spark开发（Local模式）

1、下载scala、spark、jdk并解压至/opt/路径下

  scala下载地址： http://www.scala-lang.org/     解压路径：/opt/scala

  spark下载地址：http://spark.apache.org/downloads.html    解压路径：/opt/spark-hadoop

  jdk下载地址：http://www.oracle.com/technetwork/java/javase/downloads/index.html    解压路径：/opt/jdk

2、配置环境变量/etc/profile

  gedit  /etc/profile

  加入以下配置：

  #Seeting JDK JDK环境变量 

   export JAVA_HOME=/opt/jdk

   export JRE_HOME=${JAVA_HOME}/jre 

   export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib 

   export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH          

  #Seeting Scala Scala环境变量 

   export SCALA_HOME=/opt/scala-hadoop

   export PATH=${SCALA_HOME}/bin:$PATH 

  #setting Spark Spark环境变量 

   export SPARK_HOME=/opt/spark-hadoop/ 

  #PythonPath 将Spark中的pySpark模块增加的Python环境中 

   export PYTHONPATH=/opt/spark-hadoop/python

重启电脑，使/etc/profile永久生效，临时生效，打开命令窗口，执行 source /etc/profile 在当前窗口生效
3、测试安装结果
（1）打开终端，切换到spark-hadoop根目录
执行bin/spark-shell
这里写图片描述
出现scala说明Scala连接到Spark

（2）执行bin/pyspark
这里写图片描述
出现>>>说明Python连接到spark
4、独立模式
（1）运行master
执行sbin/start-master.sh
打开localhost:8080

（当前图中completed前应该为0）
（2）运行slave
执行sbin/start-slave.sh spark://ubuntu:7077
语句最后一个url为上面图中的master的地址
这里写图片描述
可以看到已经启动了一个worker，可以继续按上述步骤添加
（3）在spark-hadoop/conf下新建一个spark-env.sh 可复制该目录下的spark-env.sh.template
加入以下配置