Spark 共享变量

最新推荐文章于 2024-04-25 21:07:55 发布

原创最新推荐文章于 2024-04-25 21:07:55 发布 · 183 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

大数据相关专栏收录该内容

4 篇文章

订阅专栏

文章介绍了Spark中的两种共享变量——广播变量和累加器。广播变量用于在分布式环境中减少内存占用和网络传输，比如当需要在executor中使用driver的本地数据时。累加器则允许在executor中进行累加操作，最终结果汇总到driver端，适用于全局计数等场景。这两种机制都提升了Spark的性能和效率。

Spark 共享变量

1.1 广播变量

tmpF091

在执行map操作时，若利用到driver中的数据（即本地数据），需要复制到每个分区中。实际上每个executor进程只需要一份数据即可，所以这样做会造成内存浪费。

tmp1086

使用共享变量后，每个executor只会收到一份数据。

#1.将本地list标记成广播变量即可
broadcast = sc.broadcast(stu_info_list)
#2.使用广播变量，从broadcast对象中取出本地list对象即可
value = broadcast.value
#也就是先放进去broadcast内部，然后从broadcast内部再取出来用，中间传输的是broadcast这个对象了
#只要中间传输的是broadcast对象，spark就会留意，只会给每个executor发一份了，而不是傻傻的哪个分区要都给。