文章目录 一、提出任务 二、完成任务 (一)新建Maven项目 (二)添加相关依赖和构建插件 (三)创建日志属性文件 (四)创建词频统计单例对象 (五)本地运行程序,查看结果 (六)对于程序代码进行解析 (七)将Spark项目编译和打包 (八)将词频统计应用上传到虚拟机 (九)在集群上执行词频统计应用 1、提交应用程序到集群中运行 (1)不带参数运行程序 (2)带参数运行程序 2、命令参数解析 3、Spark WebUI界面查看应用程序信息 一、提出任务 单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。 在IntelliJ IDEA中新建Maven管理的Spark项目,并在该项目中使用Scala语言编写Spark的WordCount程序,最后将项目打包提交到Spark集群(Standalone模式)中运行。 预备工作:启动集群的HDFS与Spark HDFS上的单词文件 - words.txt 二、完成任务 (一)新建Maven项目 新建Maven项目,基于JDK1.8