org.apache.spark.SparkException: Failed to get broadcast_270_piece0 of broadcast_270

最新推荐文章于 2024-03-05 08:57:31 发布

原创最新推荐文章于 2024-03-05 08:57:31 发布 · 2.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#sparkexception #scala

出错处理同时被 3 个专栏收录

17 篇文章

订阅专栏

spark

6 篇文章

订阅专栏

scala

5 篇文章

订阅专栏

本文介绍在Spark1.6.0中遇到的“Failed to get broadcast”错误原因及解决方法，包括调整spark.cleaner.ttl参数防止RDD过早清理，以及正确管理SparkContext实例避免重复初始化。

在spark1.6.0中运行代码，出现如下错误：

org.apache.spark.SparkException: Failed to get broadcast_270_piece0 of broadcast_270

解决方法

1.可能是因为spark.cleaner.ttl导致的，spark.cleaner.ttl设置一个清除时间，使spark清除超过这个时间的所有RDD数据，以便腾出空间给后来的RDD使用。可按如下设置时长（s）：

val sc = newSparkConf （）.setMaster （“local [2]” ）.setAppName （“test” ）.set （“spark.cleaner.ttl” ，“2000” ）

2.可能是因为将sparkcontext定义在了object体内，而不是object的方法内，这就导致方法在执行时，sparkcontext初始化多次。在spark中，上一个sparkcontext没有关闭，则会出错。
可以额外写一个spark初始化类，然后在需要的object方法内调用即可，

import org.apache.spark.{SparkConf, SparkContext}

class Spark extends Serializable {
  def getContext: SparkContext = {
    @transient lazy val conf: SparkConf = 
          new SparkConf()
          .setMaster("local")
          .setAppName("test")

    @transient lazy val sc: SparkContext = new SparkContext(conf)
    sc.setLogLevel("OFF")

   sc
  }
 }

调用：

object Test extends Spark{

  def main(args: Array[String]): Unit = {
  val sc = getContext
  val irisRDD: RDD[String] = sc.textFile("...")
...
}

参考https://www.jianshu.com/p/33fe0987f715