Spark 广播变量

楔子

spark 广播变量

​广播变量是第二种共享变量(另一个是累加器),广播变量可以让程序高效地向所有工作节点发送一个较大的只读值,以供一个多多个Spark操作使用。比如,如果应用需要向所有节点发送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,使用广播变量非常方便。

​ Spark虽然会把闭包中所有引用到的变量发送到工作节点上。但是效率低。原因有二,1是默认的任务发射机制是专门为小任务进行优化的 ;2 可能在多个并行操作中使用同一个变量,但是Spark会为每个操作分别发送。

​ 广播变量其实就是类型为 spark.broadcast.Broadcast[T] 的一个对象,其中存放着类型为 T 的值。可以在任务中通过对Broadcast 对象调用 value 来获取该对象的值。这个值只会被发送到各节点一次,使用的是一种高效的类似 BitTorrent 的通信机制。

​ 广播变量的使用过程:

  1. 通过一个类型T的对象调用 SparkContext.broadcast 创建出一个 Broadcast[T] 对象。任何可序列化类型都可以这么实现。
  2. 通过value属性访问该对象的值
  3. 变量只会被发到各个节点一次,应作为只读值处理(修改这个值不会影响别的节点)

广播的优化

​ 当播一个比较大的值时,选择既快又好的序列化格式是很重要的,因为如果序列化对象的时间很长或者传送花费的时间太久,这段时间很容易就成为性能瓶颈。尤其是,Spark的 Scala 和 Java API 中默认使用的序列化库为 Java 序列化库,因此它对于除基本类型的数组以外的任何对象都比较低效。你可以使用 spark.serializer 属性选择另一个序列化库来优化序列化过程( Kryo 这种更快的序列化库) ,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值