Spark踩坑记--Broadcast(广播变量) & Accumulator(累加器)

最新推荐文章于 2024-11-11 20:11:53 发布

原创最新推荐文章于 2024-11-11 20:11:53 发布 · 845 阅读

2 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

21 篇文章

订阅专栏

在学习FP-Growth算法过程中，遇到一个挑战：如何在Executor端更新Driver端的变量。通过研究，了解到Spark提供了Broadcast（广播变量）和Accumulator（累加器）来解决此类问题。错误示例显示广播变量无法更新Driver端变量，而累加器则能实现分布式环境中的变量累加，确保Driver端值的正确变化。

起因：在学习FP-Growth算法时，导入数据建立好Tree后，对输入项A查找其频繁项时，需要在driver端记录下输入项A的支持度计数总和，此时出现在executor端对driver端的变量的值进行更改后，driver端的变量值却没有改变，在好心人的帮助下，发现spark有Broadcast和Accumulator。

错误案例：同一个变量打印出现不同结果

var goodsFreq = 0L
val freqItemsets = fpModel.freqItemsets.cache()
freqItemsets.foreach{f =>
  if(f.items.mkString == test.mkString){
    goodsFreq = f.freq
    println("value1:"+goodsFreq)
  }
}

value1:2513

value2:0

正确案例：累加器（accumulator）是Spark中提供的一种分布式的变量机制

var goodsFreq = spark.sparkContext.longAccumulator
val freqItemsets = fpModel.freqItemsets.cache()
freqItemsets.foreach{f =>
  if(f.items.mkString == test.mkString){
    goodsFreq.add(f.freq)
    println("value1:"+goodsFreq)
  }
}
println("value2:"+goodsFreq)


value1:LongAccumulator(id: 125, name: None, value: 2513)
value2:LongAccumulator(id: 125, name: None, value: 2513)




广播变量：通过广播变量将变量复制到executor，每个task执行时，不需要通过网络再次传输变量，而是通过blockmanager获取变量，而不是从Driver获取变量，从而提升了效率。
广播变量是只读类型，不可重写。定义广播变量方式 val bc = sc.broadcast(需要广播的变量)
                         广播变量的使用方式 dc.value广播变量值

累加器：是spark中提供的一种分布式变量机制，在executor中只能写，不能读,但是能在driver端读。
                定义方式： var accu = sc.longAccumulator
                累加器使用方式 val result = accu.value