1.通过textFile读取文件
sc.textFile("E:\\spark-2.1.0\\spark-2.1.0\\README.md")
2.通过flatMap、split分隔单词
flatMap(_.split(" "))
3.通过map使一元元素变成二元元素
map((_,1))
4.通过groupBykey分类
val group = sc.textFile("E:\\spark-2.1.0\\spark-2.1.0\\README.md")
.flatMap(_.split(" ")).map((_,1)).groupByKey()
val groupcl = group.collect()
println(groupcl) // [Lscala.Tuple2;@78d2b5cf
groupcl.foreach(println)
val group = sc.textFile("E:\\spark-2.1.0\\spark-2.1.0\\README.md")
.flatMap(_.split(" ")).map((_,1)).groupByKey()
val groupcl = group.collect()
println(groupcl) // [Lscala.Tuple2;@78d2b5cf
groupcl.foreach(println)结果为:
5.注意
输出groupcl结果为:[Lscala.Tuple2;@78d2b5cf,要想输出想要的根据groupByKey的结果需要使用groupcl.foreach(println)输出。
Spark操作演示:textFile、flatMap、map、groupByKey与collect

这篇博客通过一个小型案例详细介绍了如何在Spark中使用textFile读取文件,flatMap拆分单词,map转换元素,groupByKey进行分类,最后用collect收集结果。案例代码展示了如何处理README.md文件的内容,并通过foreach打印最终分类结果。
最低0.47元/天 解锁文章
1506

被折叠的 条评论
为什么被折叠?



