共享变量分为两种:广播变量和累加器。
广播变量是分布式只读变量,用于分布式计算需要给集群中各个节点分发相同的变量副本。
累加器是在driver中定义的变量,用于独立计算单个节点executor上的数据(副本),并将结果送给driver端进行最终聚合。原理类似于mr
共享变量在Spark中扮演重要角色,广播变量提供了一种方式,在分布式环境中确保每个节点都有变量的副本,常用于优化计算。累加器则是用于执行节点上的局部计算并集中的聚合工具,特别适用于求和等操作。它们都是提升效率、优化分布式任务的关键概念。
共享变量分为两种:广播变量和累加器。
广播变量是分布式只读变量,用于分布式计算需要给集群中各个节点分发相同的变量副本。
累加器是在driver中定义的变量,用于独立计算单个节点executor上的数据(副本),并将结果送给driver端进行最终聚合。原理类似于mr
1077
601
1210
1572

被折叠的 条评论
为什么被折叠?