spark 运行环境搭建

本文详细介绍了如何安装配置 Spark 1.0.2 版本及其依赖环境,包括 Scala 和 Java 的环境配置,并指导如何搭建单机及集群环境。最后通过一个简单的 WordCount 示例演示了如何提交 Spark 任务。

第一步:下载spark-1.0.2-bin-hadoop2.tgz ,scala-2.10.4.tgz  版本随意,由于文件包大于10兆,上传不了,自行下载吧,下载地址:http://spark.apache.org/downloads.htmlhttp://www.scala-lang.org/download/

下载完后解压到目录 如:/exprot/servers ,命令tar -zxvf spark-1.0.2-bin-hadoop2.tgz   

 

第二步:配置环境变量,命令vi /etc/profile

1.配置JAVA_HOME  如:export JAVA_HOME=/export/servers/jdk1.7.0_80,jdk请自行下载

2.配置SCALA_HOME 如:export SCALA_HOME=/export/servers/scala-2.10.4

3.配置SPARK_HOME 如:export SPARK_HOME=/export/servers/spark-1.0.2-bin-hadoop2

4.配置PATH ,可以自己新增一个 如:export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin

 

第三步:配置spark conf文件,首先进入到conf目录  cd /export/servers/spark-1.0.2-bin-hadoop2/conf,

1.如果该目录下存在spark-env.sh.template这个文件 ,那么请复制一份并改名为

spark-env.sh,如果没有spark-env.sh.template,自己直接创建一个spark-env.sh

2.如果该目录下存在slaves.template这个文件,那么请复制一份并改名为slaves,如果存在slaves,那就什么不用做

3.配置spark-env.sh  

export JAVA_HOME=/export/servers/jdk1.7.0_80

export SCALA_HOME=/export/servers/scala-2.10.4

export SPARK_MASTER_IP=192.168.195.159

export SPARK_WORKER_MEMORY=1g

export HADOOP_CONF_DIR=/export/servers/spark-1.0.2-bin-hadoop2/conf

SPARK_WORKER_INSTANCES=2

 

SPARK_WORKER_CORES=2

4.配置 slaves 

192.168.158.94

 

OK!  一台机器配置完毕   我把这台机器(192.168.195.159)设置成master,那么接下来按照上面的步骤配置slaves吧,对应我的机器是192.168.158.94

注意:spark目录和master机器保持一致 如:/export/servers/

 

slaves配置完毕后,就可以运行了(2台机器最好配置下ssh免密码登陆,因为master,slaves运行的时候需要通讯,如果没有配置,会要求输入密码,网上资料很多也很简单,请自行配置)

 

到master机器 spark sbin目录下   cd /export/servers/spark-1.0.2-bin-hadoop2/sbin 

执行./start-all.sh 即可,通过jps 查看 多出了一个Master进程, 上slaves机器查看,多出了一个worker进程

并通过链接访问UI界面:http://192.168.195.159:8080/



 

 

运行环境配置到此结束,那么运行一个worldcount程序测试下

代码可以复制:https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/JavaWordCount.java

然后打成一个jar包,并上传到master机器(slaves也行)

并新建一个test.txt,写入如下内容

my name is xx

my name is yy

 

接下来就是提交到spark运行了, cd /export/servers/spark-1.0.2-bin-hadoop2/bin

执行如下命令:

spark-submit --master spark://192.168.195.159:7077 --name JavaWordCount --class com.xx.spark.JavaWordCount --executor-memory 10M --total-executor-cores 1 /export/servers/runspark/spark-study-1.0-SNAPSHOT.jar /export/servers/runspark/test.txt

 

运行结果:

my 2

name 2

is 2

xx 1

yy 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

PyCharm是一款功能强大的Python集成开发环境(IDE),可以方便地配置和管理Spark运行环境。下面是配置PyCharm与Spark的步骤: 1. 安装Java Development Kit(JDK):首先,确保你已经安装了JDK。你可以从Oracle官网下载并安装适合你操作系统的JDK版本。 2. 下载Spark:访问Apache Spark官网(https://spark.apache.org/downloads.html),选择适合你的Spark版本并下载。 3. 解压Spark:将下载的Spark压缩包解压到你想要安装的目录。 4. 配置环境变量:将Spark的bin目录添加到系统的环境变量中。在Windows系统中,可以在系统属性中的"高级系统设置"中设置环境变量;在Linux或Mac系统中,可以编辑.bashrc或.bash_profile文件,并添加以下行: ``` export SPARK_HOME=/path/to/spark export PATH=$SPARK_HOME/bin:$PATH ``` 5. 打开PyCharm:启动PyCharm,并创建一个新的Python项目。 6. 配置PyCharm与Spark:在PyCharm的菜单栏中,选择"File" -> "Settings"。 7. 在设置窗口中,选择"Project" -> "Project Interpreter"。 8. 点击右上角的齿轮图标,选择"Add..."。 9. 在弹出的窗口中,选择"System Interpreter",然后点击"OK"。 10. 在解释器路径中,选择你的Python解释器。 11. 在"Environment variables"部分,点击"+"按钮添加一个新的环境变量。 12. 设置环境变量名为"PYSPARK_PYTHON",值为你的Python解释器的路径。 13. 点击"OK"保存设置。 现在,你已经成功配置了PyCharm与Spark运行环境。你可以在PyCharm中编写和运行Spark应用程序了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值