原文地址:http://blog.youkuaiyun.com/pirage/article/details/50216197
1、确保你的电脑安装了JDK,以及配置了JAVA_HOME环境变量。
2、安装Intellij IDEA,下载地址。目前15.0版本对Scala的支持性就很好。
3、安装scala插件。在首次使用Intellij的时候会出现安装插件的提示,如果错过了也没有关系,在setting里,找到Plugins,输入scala,安装即可。
4、搭建spark开发环境。
4.1 下载spark的jar包,下载地址。例如我要下载1.5.0版本的spark,Hadoop是2.4版本,选项如图:
4.2 解压下载的包,我们需要用的是lib下的spark-assembly-1.5.0-hadoop2.4.0.jar这个包。
4.3 新建scala项目,File -> New Project -> scala -> next填写name和SDK -> finish。
4.4 在项目页“File” -> “project structure” -> “Libraries”, 点“+”,选Java,找到spark-assembly-1.5.0-hadoop2.4.0.jar导入,这样就可以编写spark的scala程序了。
4.5 很多时候我们都需要用到maven或者SBT管理依赖,这里我用的是maven。Intellij15.0对maven也很有好,只需要简单配置一下maven仓库地址即可。
5、开心的coding吧!
插入代码
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
6、打包导出到集群运行。
6.1 如果pom.xml文件中存在hadoop或者spark的依赖,请在打包之前注释掉。因为集群已经有包了,注释掉既能减少包的大小,又能避免某些jar版本冲突。
6.2 Intellij中点击“File - Project Struction - Artifacts - + - Jar - From modules with dependencies…”,填写modules、Main Class以及路径等,点击OK生成jar包。
6.3 Intellij中点击“Build- Build artifacts… ”,选择刚生成的jar包进行build。
6.4 将打包好的jar包上传到服务器某路径下。
6.5 执行提交命令:
spark-submit WhereIsYourJar 其他参数