Spark中广播变量和累加器

Spark广播变量与累加器详解
本文深入探讨了Spark中广播变量和累加器的使用方法及注意事项,包括如何在Driver端定义并使用这些特性,以及它们在Executor端的行为限制。通过具体代码示例,展示了如何利用广播变量进行数据过滤,以及如何使用累加器进行任务计数。

广播变量理解图:

广播变量使用:

val conf = new SparkConf()

conf.setMaster("local").setAppName("brocast")

val sc = new SparkContext(conf)

val list = List("hello xasxt")

val broadCast = sc.broadcast(list)

val lineRDD = sc.textFile("./words.txt")

lineRDD.filter { x => broadCast.value.contains(x) }.foreach { println}

sc.stop()

 

 注意事项

问: 能不能将一个RDD使用广播变量广播出去?

答:不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。

广播变量只能在Driver端定义,不能在Executor端定义。

在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。

累加器理解图:

累加器的使用:

val conf = new SparkConf()

conf.setMaster("local").setAppName("accumulator")

val sc = new SparkContext(conf)

val accumulator = sc.accumulator(0)

sc.textFile("./words.txt").foreach { x =>{accumulator.add(1)}}

println(accumulator.value)

sc.stop()

注意事项:

累加器在Driver端定义赋初始值,累加器只能在Driver端读取,在Excutor端更新。

 

转载于:https://www.cnblogs.com/yehuili/p/10466377.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值