Tuning (调试)

Tuning Spark

由于大多数Spark计算的内存特性,Spark程序可能会受到群集中任何资源的瓶颈:CPU,网络带宽或内存。 大多数情况下,如果数据适合内存,瓶颈就是网络带宽,但有时候,您还需要进行一些调整,例如以序列化形式存储RDD,以减少内存使用。 本指南将介绍两个主要主题:数据序列化,这对于良好的网络性能至关重要,还可以减少内存使用和内存调整。 我们还草拟了几个较小的主题。

Data Serialization

序列化在任何分布式应用程序的性能中起着重要作用。 将对象序列化或消耗大量字节的速度慢的格式将大大减慢计算速度。 通常,这将是您应该优化Spark应用程序的第一件事。 Spark旨在在便利性(允许您使用操作中的任何Java类型)和性能之间取得平衡。 它提供了两个序列化库:

  • Java序列化:默认情况下,Spark使用Java的ObjectOutputStream框架序列化对象,并且可以与您创建的任何实现java.io.Serializable的类一起使用。 您还可以通过扩展java.io.Externalizable来更紧密地控制序列化的性能。 Java序列化是灵活的,但通常很慢,并导致许多类的大型序列化格式。
  • Kryo序列化:Spark还可以使用Kryo库(版本2)更快地序列化对象。 Kryo比Java序列化(通常高达10倍)显着更快,更紧凑,但不支持所有Serializable类型,并且需要您提前注册您将在程序中使用的类以获得最佳性能。

您可以通过使用SparkConf初始化作业并调用conf.set(“spark.serializer”,“org.apache.spark.serializer.KryoSerializer”)来切换到使用Kryo。 此设置配置序列化程序,不仅用于在工作节点之间混洗数据,还用于将RDD序列化到磁盘。 Kryo不是默认值的唯一原因是因为自定义注册要求,但我们建议在任何网络密集型应用程序中尝试它。 从Spark 2.0.0开始,我们在使用简单类型,简单类型数组或字符串类型对RDD进行混洗时,内部使用Kryo序列化程序。

Spark自动包含Kryo序列化程序,用于来自Twitter chill库的AllScalaRegistrar中涵盖的许多常用核心Scala类。

要使用Kryo注册自己的自定义类,请使用registerKryoClasses方法。

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

Kryo文档描述了更高级的注册选项,例如添加自定义序列化代码。
如果您的对象很大,您可能还需要增加spark.kryoserializer.buffer配置。 此值必须足够大才能容纳要序列化的最大对象。
最后,如果你没有注册你的自定义类,Kryo仍然会工作,但它必须存储每个对象的完整类名,这是浪费。

Memory Tuning

调整内存使用量有三个注意事项:对象使用的内存量(您可能希望整个数据集适合内存),

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值