
spark算子
o.o沧海一粟
这个作者很懒,什么都没留下…
展开
-
map和mapPartition的区别
主要区别: map是对rdd中的每一个元素进行操作; mapPartitions则是对rdd中的每个分区的迭代器进行操作 MapPartitions的优点: 如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有的partitio...原创 2019-03-15 19:47:55 · 2035 阅读 · 0 评论 -
广播变量和累加器的应用场景
共享变量 提供了两种有限类型的共享变量,广播变量和累加器。 共享变量 我们在dirver中声明的这些局部变量或者成员变量,可以直接在transformation中使用, 但是经过transformation操作之后,是不会将最终的结果重新赋值给dirver中的对应的变量。 因为通过action,触发了transformation的操作,transformation的操作,都是通过 ...原创 2019-03-15 20:06:07 · 657 阅读 · 0 评论