//加载文本文件,以换行符方式切割文本.Array(hello world2,hello world2 ,...)
//单词统计1
$scala>val rdd1 = sc.textFile("/home/ycy/test.txt")
$scala>val rdd2 = rdd1.flatMap(line=>line.split(" "))
$scala>val rdd3 = rdd2.map(word = > (word,1))
$scala>val rdd4 = rdd3.reduceByKey(_ + _)
$scala>rdd4.collect
Spark最关键的一个问题就是RDD算子,就是可以简单地认为在计算过程中都是在对RDD算子进行计算;
上述代码用一句代码来完成:
$scala>sc.textFile("/home/ycy/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect;