Spark累加器与广播变量

最新推荐文章于 2024-01-13 17:37:27 发布

千年小妖L

最新推荐文章于 2024-01-13 17:37:27 发布

阅读量637

点赞数

分类专栏： spark 文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42947670/article/details/108566136

版权

本文介绍了Spark中的累加器和广播变量。累加器用于在集群中聚合信息，如计数，而广播变量则用于高效分发大对象到各个节点。文章通过实例解释了累加器在闭包中的工作原理，并提醒在集群模式下避免使用非累加器的变量进行累加操作。广播变量则解决了大量副本变量在网络IO上的压力，每个Executor的所有Task共享一个副本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark 累加器与广播变量

一、简介

在 Spark 中，提供了两种类型的共享变量：累加器 (accumulator) 与广播变量 (broadcast variable)：

累加器：用来对信息进行聚合，主要用于累计计数等场景；
广播变量：主要用于在节点间高效分发大对象。

二、累加器

这里先看一个具体的场景，对于正常的累计求和，如果在集群模式中使用下面的代码进行计算，会发现执行结果并非预期：

var counter = 0
val data = Array(1, 2, 3, 4, 5

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。