export HADOOP_HOME= /home/hadoop/hadoop-2.0.0-cdh4.5.0
export HADOOP_CONF_DIR= $HADOOP_HOME/etc/hadoop
SPARK_EXECUTOR_INSTANCES=2
SPARK_EXECUTOR_CORES=1
SPARK_EXECUTOR_MEMORY=400M
SPARK_DRIVER_MEMORY=400M
SPARK_YARN_APP_NAME=”Spark 1.0.0”
其中:
(1) HADOOP_HOME:当前节点中HDFS的部署路径,因为Spark需要和HDFS中的节点在一起;
(2) HADOOP_CONF_DIR:HDFS节点中的conf配置文件路径,正常情况下此目录为$HADOOP_HOME/etc/hadoop;
(3) SPARK_EXECUTOR_INSTANCES:在Yarn集群中启动的Worker的数目,默认为2个;
(4) SPARK_EXECUTOR_CORES:每个Worker所占用的CPU核的数目;
(5) SPARK_EXECUTOR_MEMORY:每个Worker所占用的内存大小;
(6) SPARK_DRIVER_MEMORY:Spark应用程序Application所占的内存大小,这里的Driver对应Yarn中的ApplicationMaster;
(7) SPARK_YARN_APP_NAME:Spark Application在Yarn中的名字;
配置完成后,将Spark部署文件放置到Yarn的节点中即可。这里,将spark-1.0.0整个目录放到Yarn集群的一个节点192.168.1.112的/home/hadoop(设为spark的安装路径的父目录)路径下。
至于spark-env.sh文件,可以配置如下属性:
(1) SPARK_MASTER_PORT:Master服务端口,默认为7077;
(2) SPARK_WORKER_CORES:每个Worker进程所需要的CPU核的数目;
(3) SPARK_WORKER_MEMORY:每个Worker进程所需要的内存大小;
(4) SPARK_WORKER_INSTANCES:每个Worker节点上运行Worker进程的数目;
(5) SPARK_MASTER_WEBUI_PORT:Master节点对应Web服务的端口;