今天使用了intellij开发了spark应用程序,特此记录一下流程。
1、配置相关环境
安装好JDK、Scala、intellij、spark 等相关软件并配置好环境,具体方法 之前的博客里都有。
2、下载spark-assembly-1.3.0-hadoop2.4.0.jar
这个是spark程序的依赖库文件,有两种方法生成,一种是直接从官网下载预编译好的spark安装包,解压后在lib下可以找到。
还有一种下载spark源码,在spark根目录下执行
./sbt/sbt assembly
3、创建工程
打开intellij,新建一个Java工程(也可以使用Scala工程,由程序决定)
也可以建立一个maven工程。如果对maven比较熟的话。
4、添加库文件
在File –> Project Structure…–>Libraries添加spark-assembly-1.3.0-hadoop2.4.0的依赖包
5、编写程序
新建一个Java class文件,在文件中进行开发
6、程序打包
在File –> Project Structure…–>Artifacts
点击绿色“+”,Add–>JAR–>From Modules with Dependencies
记得在这之后删除Output Layout下所有的非开发jar包。
输入main class入口函数名,一路点apply
7、编译程序
点击Build–>Build Artifacts
选择要编译的项目进行编译
可以在out目录下找到生成的jar包
8、提交运行
使用spark -submit提交,具体格式和相关信息查阅spark-submit文档。
spark官方也提供了一些教程,可以在下面网址找到:
http://spark.apache.org/docs/latest/quick-start.html