Spark 大数据处理实战：分组TopN、文本统计与HDFS操作解析-优快云博客

本文链接：https://blog.youkuaiyun.com/Dream_aju/article/details/120944181

本文详细解答了四个Spark Core的实战问题，包括使用Spark处理数据文件，实现分组取topn，统计特定词汇出现次数，从HDFS读取数据并进行复杂统计，以及找出股票每日波动峰值和谷值。通过这些题目，深入理解Spark在大数据处理中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一题：

有数据文件test.txt，分隔符为“\t”，字段有id、time、url，用SparkCore实现分组取topn。求搜索引擎被使用最多的前三名

样例数据如下：

2   11:08:23   google
3   12:09:11   baidu
1   08:45:56   sohu
2   16:42:17   yahoo
1   23:10:34   baidu
5   06:23:05   google
6   07:45:56   sohu
4   18:42:17   yahoo
5   24:10:34   baidu
1   04:23:05   google
7   16:42:17   yahoo
8   23:10:34   baidu
10   06:23:05   google
11   07:45:56   sohu

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

//求访问最多的前三名
object Exam1 {
    def main(args: Array[String]): Unit = {
        val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("")
        val sc: SparkContext = new SparkContext(conf)
        val rdd1: RDD[String] = sc.textFile("data/exam1.txt")

        val rdd2: RDD[(String, Int)] = rdd1.map(x => {
            val strings: Array[String] = x.split("\t")
            (strings(2), 1)
        }).reduceByKey(_ + _).sortByKey()
        rdd2.take(3).foreach(println)
        sc.stop()
    }
}