Spark支持运行在Yarn或者Mesos上,同时也提供自己的资源管理系统,即Standalone模式.为了方便本地开发,Spark提供了Local运行模式.不同的环境的开发代码是相同的,只是在提交到不同的调度系统时参数不同而已.Spark可以处理HDFS,S3以及本地的数据,使用较为方便.Spark的开发语言主流的有Scala和Python.源码就是Scala写的,所以建议用Scala开发.
我这里的环境是ubuntu:16.04,Scala的版本建议使用新的稳定版本,直接在官网下载配置环境变量就行,也可以直接使用apt-get 安装.但是版本要注意.这而大致写写过程.
1. 解压scala的安装包,配置环境变量,检测是否安装成功
tar zxvf scala.x…tar.gz
vim .bashrc
export SCALA_HOME=/…/scala
export PATH=SCALAHOME/bin:SCALA_HOME/bin:SCALAHOME/bin:PATH
source .bashrc
scala -version
如果显示了scala的版本,则安装成功.
Spark的安装
Spark的安装右源码安装和二进制包安装,也可以直接使用apt-get安装.
对于源码安装,要使用maven进行编译,当然也可以使用自带的maven,即make-distribution.sh文件进行编译安装.这里不详细解释,主要说bin包的安装
首先在官网下载spark,这里注意要与自己的hadoop版本对应,官网提示.
下载解压后配饰环境变量.
vim .bashrc
export SPARK_HOME=/…/
export PATH=SPARKHOME/bin:SPARK_HOME/bin:SPARKHOME/bin:PATH
source .bashrc
修改配置文件
cp $SPARH_HOME/conf/spark-env.sh.template $SPARH_HOME/conf/spark-env.sh
vim $SPARH_HOME/conf/spark-env.sh
export JAVA_HOME=...
export HADOOP_HOME=...
export SPARK_MASTER_IP=localhost #配置master的主机名,单机就用localhost
export SPARK_WORKER_CORES=1 #worknode给spark分的核数
export SPARK_WORKER_INSTANCES=1#worknode使用spark实例数
export SPARK_WORKER_MEMORY=1G#worknode给spark的内存
export SPARK_WORKER_PORT=8888#指定spark运行是的端口
cp $SPARH_HOME/conf/slaves.template $SPARH_HOME/conf/slaves.sh
vim $SPARH_HOME/conf/slaves
这个文件配置worknode的主机名,一行一个,如果是单机则用localhost.
进入sbin/目录下,
./start-all.sh
jps查看是否有Master和Worker进程.如果有则启动成功.也可以访问http://MASTER_IP:8080/查看.

714

被折叠的 条评论
为什么被折叠?



