Spark共享变量---Scala

本文探讨了Spark中两种主要的共享变量类型:AccumulatorValue用于并行操作中的累加,BroadcastValue则用于高效地在任务间广播大量数据。Accumulators允许任务将值累积到一个全局变量,而Broadcasts通过缓存数据副本减少数据传输,提高性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Point 1:AccumulatorValue

package com.spark.sharevariables.scala

import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by Administrator on 2017/08/02.
  * 累加器中的全局变量只能由driver端读取,task只管干活,不能读如果用.value方法的话
  * 累加器如果你写到了Transformation这种转换算子内部的话呢,要想让这个累加器生效,必须
  * 在这个Transformation操作之前的有action操作!!!!例子如下:
  * val accum = sc.accumulator(0)
  * data.map { x => accum += x; f(x) }
  */
object AccumulatorValue {
  def main(args: Array[String]) {
    val conf  = new SparkConf().setAppName("AccumulatorValue").setMaster("local")
    val sc = new SparkContext(conf)
    val sum = sc.accumulator(0,"AccumulatorValue")
    val list = Array(1,2,3,4,5)
    val listRDD = sc.parallelize(list)
    listRDD.foreach(value => {sum +=value;})
    println(sum.value)
  }
}

Point 2:BroadCastValue

package com.spark.sharevariables.scala

import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by Administrator on 2017/08/02.
  */
object BroadCastValue {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("BroadCastValue").setMaster("local")
    val sc = new SparkContext(conf)
    val list = Array(1,2,3,4,5,6)
    val f = 3
    val broadcastfactor = sc.broadcast(f)
    val listRDD = sc.parallelize(list)
    val result = listRDD.map(f => f * broadcastfactor.value)
    result.foreach(f => println(f))
  }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值