所以不要轻易用collect,集群中用了collect产生的数组据说是保存在主节点中,其他节点访问不到,所以还要用到广播变量广播道其他节点,不然就会报空指针的错误。
以下出自这里:https://blog.youkuaiyun.com/qq_44596980/article/details/93383431
/*collect: 收集一个弹性分布式数据集的所有元素到一个数组中,这样便于我们观察,毕竟分布式数据集比较抽象。Spark的collect方法,是Action类型的一个算子,会从远程集群拉取数据到driver端。最后,将大量数据
汇集到一个driver节点上,将数据用数组存放,占用了jvm堆内存,非常用意造成内存溢出,只用作小型数据的观察。*/
val arr = res.collect();
println("arr(0) is " + arr(0) + " arr(2) is " + arr(2) + " arr(4) is " + arr(4));
}
}
输出结果:
版权保护,尊重原创,原文出处:http://www.mark-to-win.com/index.html?content=Mydb/DBUrl.html&chapter=Mydb/SparkScala_web.html#SparkcollectUsage