目录
1、创建Maven工程
IDEA中,新建Maven工程,用于项目依赖包管理和项目构建等
2、引入Spark依赖包
配置pom.xml文件,引入maven中心仓库地址、新增Spark依赖包配置和任务的构建配置项
3、创建本地测试文件
创建本地测试文件,格式与分布式存储的文件一样
比如创建data/wordFile文件,文件中每行的单词用逗号隔开
4、编写spark代码
a、数据类型的选择:因为存储的是非json串,选择RDD类型进行处理
b、读入输入文件,创建入口类SparkContext,然后创建RDD,并使用RDD操作进行word次数统计
5、运行程序,得出结果
本地Run程序,生成运行结果放在data/wordCount目录下
6、作业提交到集群运行
详见:https://blog.youkuaiyun.com/lovechendongxing/article/details/81748004