第一题:
有数据文件test.txt,分隔符为“\t”,字段有id、time、url,用SparkCore实现分组取topn。求搜索引擎被使用最多的前三名
样例数据如下:
2 11:08:23 google
3 12:09:11 baidu
1 08:45:56 sohu
2 16:42:17 yahoo
1 23:10:34 baidu
5 06:23:05 google
6 07:45:56 sohu
4 18:42:17 yahoo
5 24:10:34 baidu
1 04:23:05 google
7 16:42:17 yahoo
8 23:10:34 baidu
10 06:23:05 google
11 07:45:56 sohu
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
//求访问最多的前三名
object Exam1 {
def main(args: Array[String]): Unit = {
val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("")
val sc: SparkContext = new SparkContext(conf)
val rdd1: RDD[String] = sc.textFile("data/exam1.txt")
val rdd2: RDD[(String, Int)] = rdd1.map(x => {
val strings: Array[String] = x.split("\t")
(strings(2), 1)
}).reduceByKey(_ + _).sortByKey()
rdd2.take(3).foreach(println)
sc.stop()
}
}
第二题:
统计下面语句中
1)Spark的出现次数
2)哪个单词出现的次数最多
Get Spark from the [downloads page](http://spark.apache.org/downloads.html) of the