1.通过SparkContext把Scala中的集合转化为RDD
通过SparkContext提供的parallelize方法把Scala中的集合转换为RDD
val listRDD = sc.parallelize(List(6,8,10,12,16))
2.filter筛选想要数据
这里我们通过filter筛选出大于10的元素val filterRDD = listRDD.filter(_ >10)
3.输出filterRDD
结果为:MapPartitionsRDD[1] at filter at PrintDemo.scala:25
发现不是我们想要的
4.把filterRDD通过collect转换为集合,然后输出查看
println(filterRDD.collect())
结果为:[I@33128e87 还是不是我们想要的结果。
5.通过foreach(println)隔行输出想要的结果
filterRDD.foreach(println)
6.完整代码示例截屏如下
7.关于如何输出想要的结果请查看此前文章,链接如下:
http://blog.youkuaiyun.com/rivercode/article/details/59481941