spark源码一参数初始化和ｃｏｎtext组成

最新推荐文章于 2024-08-04 23:37:43 发布

原创最新推荐文章于 2024-08-04 23:37:43 发布 · 235 阅读

0 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

3 篇文章

订阅专栏

博客介绍了Spark任务启动时获取参数的方式，包括源自系统参数、使用sparkConf相关API设置以及从别的SparkConf克隆。还对SparkContext进行了介绍，涉及SparkEnv、SparkStatusTracker、TaskScheduler、DAGScheduler等部分，以及sparkUI界面。

前言 spark任务启动时获取参数方式

在启动spark程序时先要进行参数配置，也就是通过new SparkConf()来设置spark程序所需的参数，底层数据结构是 key-value pairs

 private val settings = new ConcurrentHashMap[String, String]()

spark获取参数方式有三种：
1、源自于系统参数以spark.参数开头的属性，

  if (loadDefaults) {
    loadFromSystemProperties(false)
  }

  private[spark] def loadFromSystemProperties(silent: Boolean): SparkConf = {
    // Load any spark.* system properties
    for ((key, value) <- Utils.getSystemProperties if key.startsWith("spark.")) {
      set(key, value, silent)
    }
    this
  }

2、使用sparkConf相关API设置的那部分

  /** Set a configuration variable. */
  def set(key: String, value: String): SparkConf = {
    set(key, value, false)
  }

3、从别的SparkConf克隆过来

 /** Copy this object */
  override def clone: SparkConf = {
    val cloned = new SparkConf(false)
    settings.entrySet().asScala.foreach { e =>
      cloned.set(e.getKey(), e.getValue(), true)
    }
    cloned
  }