Spark03-广播变量和累加器

本文详细介绍了在Spark中如何使用累加器和广播变量,通过具体的Scala代码示例展示了这两种特性在分布式计算环境中的应用。累加器用于在Driver端读取并允许在Executor端更新的数据结构,而广播变量则用于将只读变量缓存到每个节点,减少数据在网络中的传输,提高计算效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考地址:https://www.cnblogs.com/qingyunzong/p/8890483.html

广播变量scala代码

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local")
    conf.setAppName("Spark07")
    val sc = new SparkContext(conf)
    //累加器在Driver端定义赋初始值,累加器只能在Driver端读取,在driver、Excutor端更新,
    var sum = sc.accumulator(0)
    val rdd: RDD[String] = sc.textFile("G:/idea/scala/spark02/words1")
    sum.add(1)
    val result: RDD[String] = rdd.map(index=>{
      println("sum="+sum)
      sum.add(1)
      println(sum)
      index
    })
    result.foreach(println)
    println(sum)
  }

累加器scala代码

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local")
    conf.setAppName("Spark07")
    val sc = new SparkContext(conf)
    //累加器在Driver端定义赋初始值,累加器只能在Driver端读取,在driver、Excutor端更新,
    var sum = sc.accumulator(0)
    val rdd: RDD[String] = sc.textFile("G:/idea/scala/spark02/words1")
    sum.add(1)
    val result: RDD[String] = rdd.map(index=>{
      println("sum="+sum)
      sum.add(1)
      println(sum)
      index
    })
    result.foreach(println)
    println(sum)
  }

 

转载于:https://my.oschina.net/u/3962987/blog/3080270

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值