零、本讲学习目标
- Spark RDD实现单词计数
- Spark RDD实现分组求TopN
- Spark RDD实现二次排序
- Spark RDD实现计算平均分
- Spark RDD实现倒排索引统计每日新增用户
- Spark RDD读写HBase
- Spark RDD数据倾斜问题解决
一、案例分析:Spark RDD实现单词计数
(一)案例概述
-
单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。
-
在IntelliJ IDEA中新建Maven管理的Spark项目,并在该项目中使用Scala语言编写Spark的WordCount程序,最后将项目打包提交到Spark集群(Standalone模式)中运行。
(二)实现步骤
1、新建Maven管理的Spark项目 -
在IDEA中选择File→new→Project…,在弹出的窗口中选择左侧的Maven项,然后在右侧勾选Create fromarchetype复选框并选择下方出现的org.scala-tools.archetypes:scala-archetype-simple项(表示使用scala-archetype-simple模板构建Maven项目)。