Spark广播变量和累加器（附案例）

竹长大大

已于 2022-02-21 17:50:00 修改

阅读量967

点赞数 1

CC 4.0 BY-SA版权

分类专栏： # Spark 文章标签： spark 大数据 big data 缓存分布式

于 2022-02-21 16:01:18 首次发布

本文链接：https://blog.youkuaiyun.com/qq_17685725/article/details/123048644

本文介绍了Spark中的广播变量和累加器概念及使用方法。广播变量通过在Driver端一次性发送数据到每个Executor，减少网络传输压力，提高性能。累加器则提供多节点间的累加操作，仅Driver端能读取其值。文中以Python为例，展示了广播变量的创建和使用，以及整数累加器的实现，并提供了一个综合案例来结合运用这两种特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

广播变量：

如果使用了广播变量技术，则 Driver 端将共享数据只会发送到每个 Executor 一份。Executor 中的所有 Task 都复用这个对象。
如果不用广播变量技术，则 Driver 端默认会将共享数据分发到每个 Task 中，造成网络分发压力大。甚至导致你在进行RDD持久化到内存时，因内存不足而被迫存到磁盘，增加了磁盘IO，严重降低性能。

广播变量使用方法（Python实现）：

要保证该共享对象是可序列化的。因为跨节点传输的数据都要是可序列化的。

在Driver端将共享对象广播到每个Executor：

#2-定义一个列表，装特殊字符
list_v=[",", ".", "!", "#", "$", "%"]
#3-将列表从Driver端广播到各个Executor中
bc=sc.broadcast(list_v)

在Executor中获取：
```
list2=bc.value
```

累加器：

Spark提供的 Accumulator，主要用于多个节点对一个变量进行共享性的操作。Accumulator 只提供了累加的功

最低0.47元/天解锁文章

200万优质内容无限畅学