Spark学习笔记整理 --- 2018-08-07【Spark的共享变量】

最新推荐文章于 2025-01-06 18:26:08 发布

杨鑫newlfe

最新推荐文章于 2025-01-06 18:26:08 发布

阅读量305

点赞数

CC 4.0 BY-SA版权

分类专栏： Scala 大数据挖掘与大数据应用案例文章标签： Java Scala 共享变量 Spark

本文链接：https://blog.youkuaiyun.com/u012965373/article/details/81487425

大数据挖掘与大数据应用案例同时被 2 个专栏收录

536 篇文章 ¥9.90 ¥99.00

订阅专栏

Scala

108 篇文章

订阅专栏

本文介绍了Spark中的两种共享变量——广播变量和累加器。广播变量用于在所有节点间共享只读变量，提高效率；累加器则支持跨节点累加计算，如计数和求和。通过SparkContext.broadcast()创建广播变量，确保任务使用广播变量的值而非原始变量。累加器通过SparkContext.longAccumulator()或doubleAccumulator()创建，任务可累加但仅驱动程序能读取值。

在默认情况下，当Spark在集群的多个不同节点的多个任务上并行运行一个函数时，它会把函数中涉及到的每个变量，在每个任务上都生成一个副本。但是，有时候，需要在多个任务之间共享变量，或者在任务（Task）和任务控制节点（Driver Program）之间共享变量。

为了满足这种需求，Spark提供了两种类型的变量：

广播变量（broadcast variables）：

广播变量用来把变量在所有节点的内存之间进行共享。

累加器（accumulators）：

累加器则支持在所有不同节点之间进行累加计算（比如计数或者求和）。

广播变量
广播变量（broadcast variables）允许程序开发人员在每个机器上缓存一个只读的变量，而不是为机器上的每个任务都生成一个副本。通过这种方式，就可以非常高效地给每个节点（机器）提供一个大的输入数据集的副本。Spark的“动作”操作会跨越多个阶段（stage），对于每个阶段内的所有任务所需要的公共数据，Spark都会自动进行广播。通过广播方式进行传播的变量，会经过序列化，然后在被任务使用时再进行反序列化。这就意味着，显式地创建广播变量只有在下面的情形中是有用的：当跨越多个阶段的那些任务需要相同的数据，或者当以反序列化方式对数据进行缓存是非常重要的。

可以通过调用SparkContext.broadcast(v)来从一个普通变量v中创建一个广播变量。这个广播变量就是对普通变量v的一个包装器，通过调用value方法就可以获得这个广播变量的值，具体代码如下：

了解本专栏