本教程的具体运行环境如下:
- CentOS 6.7
- Spark 2.1.0
- Hadoop 2.7.3
- Java JDK 1.8.0
- Scala 2.11.8
准备工作
安装JDK,并配置好JAVA_HOME变量。此外,Spark会用到HDFS与YARN,因此请先安装Hadoop,具体请浏览hadoop安装教程。
安装Spark
本教程选用的是Spark 2.1.0版本,选择package type为Pre-build for Hadoop 2.7 and later.
下载链接:Download Spark.
下载后执行如下命令:
$sudo tar -zxf ~/spark-2.1.0-bin-hadoop2.7.tgz -C /usr/local/
$cd /usr/local
$sudo mv ./spark-2.1.0-bin-hadoop2.7 ./spark
$sudo chown -R hadoop:hadoop ./spark
安装后,需要在./conf/spark-env.sh中修改Spark的Classpath,执行如下命令:
$cd /usr/local/spark
$./conf/spark-env.sh.template ./conf/spark-env.sh
编辑./conf/spark-env.sh(vim ./conf/spark-env.sh),在最后面加上如下一行:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
运行Spark实例
前提:必须安装Hadoop才能使用Spark,但如果使用Spark过程中没用到HDFS,不启动Hadoop也是可以的。在/usr/local/spark/examples/src/main目录下有一些Spark的示例程序。
一个示例程序,计算SparkPi(计算π的近似值),执行如下命令:
$cd /usr/local/spark
$./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"
通过sbt编译打包Self-Contained Applications可参考:Spark 快速入门之SBT安装。