Spark部分之累加器accumulator【文字说明+图片展示+代码实现】

最新推荐文章于 2025-07-30 17:14:57 发布

道法—自然

最新推荐文章于 2025-07-30 17:14:57 发布

阅读量929

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/wyqwilliam/article/details/81194191

本文介绍了Spark中的累加器，它是一个集群中的全局变量，用于分区数据的累加。文章详细讲解了累加器的工作原理，如何自定义累加器并实现AccumulatorParam接口，以及在实际操作中的注意事项。文中还通过图解和代码示例展示了累加器的使用，强调累加器只能在Driver端定义和初始化，Executor端用于更新，并且其value只能在Driver端获取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

累计器：实际上就是将每个分区进行累加

一。原理
       相当于集群中的统筹的大变量。
       自定义累计器，实现AccumulatorParam<xxx> 实现三个方法zero,addAccumulator,addInPlace
       val accumulator = sc.accumulator(xxx,new AccumulatorParam...)
       accumulator.add(xxxx)
       注意：
           累计器只能在Driver定义初始化，在Executor端更新，在Executor不能accumulator.value获取值。

二。图解

三。代码实现

package com.bjsxt

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object Scala {
  def main(args: Array[String]): Unit = {
    /**
     * 累加求和
     */
    val conf=new SparkConf().setAppName("test").setMaster("local")