一、Spark实战:词频统计
(一)Scala版
1、分步完成词频统计
(1)基于文本文件创建RDD
- 执行命令:
val lines = sc.textFile("/home/test.txt")
(2)按空格拆分作扁平化映射
- 执行命令:
val words = lines.flatMap(_.split(" "))
(3)将单词数组映射成二元组数组
- 执行命令:
val tuplewords = words.map((_, 1))
(4)将二元组数组按键归约
- 执行命令:
val wordcount = tuplewords.reduceByKey(_ + _)
(5)将词频统计结果按次数降序排列
- 执行命令:
val sortwordcount = wordcount.sortBy(_._2, false)