当集群搭建好了,接下来就是将自己的代码写好,扔到集群上进行跑了。
一、安装软件
1、JDK
2、Intellj IDEA
3、xshell
这三部安装过程这里不介绍,下一步下一步即可。
4、Intellj IDEA 安装scala插件
首次使用会出现安装插件提示,如果没安装,就在File->setting->plugins,输入scala.
二、所需包
各种包最好保持与集群版本一致。
1、java sdk
2、scala sdk
3、spark jar包
如果spark版本低于2.0,我们可以直接下载对应版本的assembly jar包,我的是1.6.0,有jar包,解压后,放在相应目录下。如果是2.0后,就没有jar包了,我们可以用maven,给idea安装一个maven插件。maven怎么用,网上资料很多。
三、建项目
2、在项目页File -> project structure -> Libraries, 点“+”,选Java,找到自己的sprk jar包,我的是spark-assembly-1.6.0-hadoop2.6.0.jar导入,这样就可以编写spark的scala程序了
3、开始编码
随便写一个测试例子,扔到集群上跑跑试试,注意读取文件时,如果是hdfs上的文件,则是“hdfs://……”
packag