spark共享变量中累加器的作用

原创于 2025-12-24 08:27:22 发布 · 178 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

2025博客之星年度评选已开启 10w+人浏览 1.9k人参与

在Spark中，累加器（Accumulator） 是一种共享变量，主要用于在分布式计算中实现高效的全局计数或聚合操作。其核心作用如下：

核心作用

跨节点聚合数据
在并行任务（如 map()、filter() 等）中，累加器允许不同执行器（Executor）将局部计算结果汇总到驱动节点（Driver），实现全局统计。
例如：统计分布式处理中的错误日志总数。
避免分布式计算的闭包陷阱
若在任务中直接修改外部变量（如 count += 1），因变量副本分发到各节点，结果会丢失。累加器通过中心化更新机制规避此问题。
高效只写操作
累加器设计为仅支持累加操作（如 add()），各节点可向其写入数据，但无法读取值（读取需在Driver端完成）。这种设计减少了网络通信开销。

使用场景

计数统计：如记录过滤的数据量、异常次数等。
求和运算：如分布式数值累加。
自定义聚合：通过扩展 AccumulatorV2 实现复杂聚合逻辑（如向量求和）。

简单示例

val spark = SparkSession.builder.appName("AccumulatorDemo").getOrCreate()
val accum = spark.sparkContext.longAccumulator("myCounter") // 创建累加器

val data = spark.sparkContext.parallelize(Seq(1, 2, 3, 4, 5))
data.foreach { x =>
  if (x % 2 == 0) accum.add(1) // 对偶数计数
}

println(s"偶数总数: ${accum.value}") // 输出结果

输出：偶数总数: 2