零、本讲学习目标
- 使用Spark SQL实现词频统计
- 使用Spark SQL计算总分与平均分
- 使用Spark SQL实现分组排行榜
- 使用Spark SQL统计每日新增用户
一、使用Spark SQL实现词频统计
(一)提出任务
- 词频统计是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现词频统计。本次任务,要求利用SparkSQL来实现词频统计。
- 单词文件
hello scala world
hello spark world
scala is very concise
spark is very powerful
let us learn scala and spark
we can learn them well
- 词频统计结果