
scala
南熏门前一只喵
这个作者很懒,什么都没留下…
展开
-
Spark广播变量Broadcast
Spark广播变量的目的是让每个worker节点在内存中保存一个只读的对象,节省了在每次tasks创建发送到woker节点中携带该对象副本的网络IO。一些需要在多个task中使用的,不可变的大数据集合对象尤其适合被定义程广播变量。 广播变量的定义方法,fron Spark官网: val broadcastVar = sc.broadcast(Array(1, 2, 3)) //sc是SparkC...原创 2019-11-05 22:35:40 · 391 阅读 · 0 评论 -
Spark mapPartitions、map、foreachPartition、foreach算子的区别、误区和正确用法
mapPartitions、map、foreachPartition、foreach的区别 mapPartitions和map是transform算子,分别返回一个iterator迭代器和RDD。foreachPartition、foreach是action算子,无返回值。用于结果的输出操作 mapPartitions、foreachPartition中定义的是一个RDD的每一个分区的统一处理逻...原创 2019-11-05 22:09:44 · 1502 阅读 · 0 评论