Spark共享变量---Scala

最新推荐文章于 2023-07-14 20:00:00 发布

原创最新推荐文章于 2023-07-14 20:00:00 发布 · 2.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #scala #共享变量 #BroadCast #Accumulae

Big Data 专栏收录该内容

140 篇文章

订阅专栏

本文探讨了Spark中两种主要的共享变量类型：AccumulatorValue用于并行操作中的累加，BroadcastValue则用于高效地在任务间广播大量数据。Accumulators允许任务将值累积到一个全局变量，而Broadcasts通过缓存数据副本减少数据传输，提高性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Point 1：AccumulatorValue

package com.spark.sharevariables.scala

import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by Administrator on 2017/08/02.
  * 累加器中的全局变量只能由driver端读取，task只管干活，不能读如果用.value方法的话
  * 累加器如果你写到了Transformation这种转换算子内部的话呢，要想让这个累加器生效，必须
  * 在这个Transformation操作之前的有action操作！！！！例子如下：
  * val accum = sc.accumulator(0)
  * data.map { x => accum += x; f(x) }
  */
object AccumulatorValue {
  def main(args: Array[String]) {
    val conf  = new SparkConf().setAppName("AccumulatorValue").setMaster("local")
    val sc = new SparkContext(conf)
    val sum = sc.accumulator(0,"AccumulatorValue")
    val list = Array(1,2,3,4,5)
    val listRDD = sc.parallelize(list)
    listRDD.foreach(value => {sum +=value;})
    println(sum.value)
  }
}

Point 2：BroadCastValue

package com.spark.sharevariables.scala

import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by Administrator on 2017/08/02.
  */
object BroadCastValue {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("BroadCastValue").setMaster("local")
    val sc = new SparkContext(conf)
    val list = Array(1,2,3,4,5,6)
    val f = 3
    val broadcastfactor = sc.broadcast(f)
    val listRDD = sc.parallelize(list)
    val result = listRDD.map(f => f * broadcastfactor.value)
    result.foreach(f => println(f))
  }
}