首先在Linux环境安装spark:
可以从如下地址下载最新版本的spark:
https://spark.apache.org/downloads.html
这个下载下来后是个tgz的压缩包,解压后spark环境就安装好了
#git clone git://github.com/apache/spark.git
安装好后,进入到spark的根目录,就可以通过spark提供的一些脚本命令行来用spark进行计算了,一个例子
./bin/spark-submit examples/src/main/python/pi.py 10
这个例子是,可以给脚本命令传入python脚本参数来计算,当然也可以传入Java的jar包参数来计算,即如何计算是通过传入python脚本或者Java类来定义的,
python脚本用spark提供的python api编写,入口是main函数
java类用spark提供的java api来编写,入口也是main函数,要将java类及其依赖的jar包打成jar
下面主要说下在IntelliJ idea中用Java在本地进行spark计算(单线程)
首先需要在pom文件中引