需要添加的依赖
<repositories>
<repository>
<id>cloudera</id>
<name>cloudera</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>2.11.8</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version&

本文介绍了如何在IDEA中利用MAVEN搭建Spark项目,进行词频统计。首先,添加必要的依赖,然后创建并打包Spark wordcount程序。接着,通过rz命令将jar包上传至云主机,并使用hdfs上的数据文件提交作业。进一步优化,将结果保存到指定文件,并实现按词频降序排序的功能。
最低0.47元/天 解锁文章
8825

被折叠的 条评论
为什么被折叠?



