该文章主要为完成实训任务,详细实现过程及结果见【http://t.csdn.cn/0qE1L】
文章目录
一、词频统计准备工作
1.1 安装Scala2.12.15
- 从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html
- 安装在默认位置
- 安装完毕
- 在命令行窗口查看Scala版本(必须要配置环境变量)
1.2 启动集群的HDFS与Spark
- 启动HDFS服务
- 启动Spark集群
1.3 在HDFS上准备单词文件
- 在master虚拟机上创建单词文件 -
words.txt
- 将单词文件上传到HDFS指定目录
/wordcount/input
二、本地模式运行Spark项目
2.1 新建Maven项目
- JDK选1.8
- 创建完成
- 将
java
目录改成scala
目录
- 重名为
scala
2.2 添加项目相关依赖
- 在
pom.xml
文件里添加依赖,并告知源程序目录已改成scala
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>cn.kox.rdd</groupId>
<artifactId>SparkRDDWordCount</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>