025 Spark中的广播变量原理以及测试(共享变量是spark中第二个抽象)

本文介绍了Spark中的共享变量,包括Accumulators和广播变量的作用及使用方法。解释了为何需要广播变量,并提供了官方示例,同时强调了不能广播RDD,但可以广播RDD中的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一:来源

1.说明

  为啥要有这个广播变量呢。

  一些常亮在Driver中定义,然后Task在Executor上执行。

  如果,有多个任务在执行,每个任务需要,就会造成浪费。

    

 

 

二:共享变量的官网

1.官网

  有两种方式。

  

 三:程序实现

1.Accumulators

  类似于mapreduce中的用于累加数据的共享变量

  这是一个官方的案例。

   

 

2.官网上的程序

  

 

3.广播变量程序实现

  作用:

    可以减少网络传输量

    可以解决大表join小表的问题(将小表的数据广播出去)

  注意:

    不能广播RDD,可以广播RDD中的数据。

  

 

转载于:https://www.cnblogs.com/juncaoit/p/6429052.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值