1.通过SparkContext把Scala中的集合转化为RDD
通过SparkContext提供的parallelize方法把Scala中的集合转换为RDD
val listRDD = sc.parallelize(List(6,8,10,12,16))
2.filter筛选想要数据
这里我们通过filter筛选出大于10的元素val filterRDD = listRDD.filter(_ >10)
3.输出filterRDD
结果为:MapPartitionsRDD[1] at filter at PrintDemo.scala:25
发现不是我们想要的
4.把filterRDD通过collect转换为集合,然后输出查看
println(filterRDD.collect())结果为:[I@33128e87 还是不是我们想要的结果。
5.通过foreach(println)隔行输出想要的结果
filterRDD.foreach(println)
6.完整代码示例截屏如下
7.关于如何输出想要的结果请查看此前文章,链接如下:
http://blog.youkuaiyun.com/rivercode/article/details/59481941
本文档介绍了如何在IntelliJ中利用Spark的filter操作筛选数据。首先,通过SparkContext将Scala集合转为RDD,接着使用filter方法筛选所需数据,并通过collect方法将filter后的RDD转换为集合进行查看。最后,使用foreach配合println逐行输出筛选结果。参考链接提供了更多关于输出详细结果的方法。
5764

被折叠的 条评论
为什么被折叠?



