首先来看下spark的wordcount的top5
package org.example.spark
import java.security.MessageDigest
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
import org.apache.spark.rdd.RDD
def main(args: Array[String]): Unit = {
// 这里的下划线"_"是占位符,代表数据文件的根目录
val file: String = "D:\\testCode\\words.txt"
// 读取文件内容
//设置spark的配置文件信息
val sparkConf: SparkConf = new SparkConf().setAppName("WordCount")
.setMaster("local[2]")
//构建sparkcontext上下文对象,它是程序的入口,所有计算的源头
val sc: SparkContext = new SparkContext(sparkConf)
//读取文件
val lineRDD: RDD[String] = sc.textFile(file)
// 以行为单位做分词val
val words: RDD[String] = lineRDD.flatMap(line => line.split(" "))
// 过滤掉空字符串
val cleanWordRDD: RDD[String] = word