spark-shell到sparkcontext的过程

本文详细介绍了Apache Spark的启动过程,从spark-shell到spark-class,再到spark-submit,直至创建SparkContext。涉及关键步骤如:调用java运行org.apache.spark.launcher.Main类、设置环境变量等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


在bin/spark-shell 中会调用spark-submit
function main() {
  if $cygwin; then
    # Workaround for issue involving JLine and Cygwin
    # (see http://sourceforge.net/p/jline/bugs/40/).
    # If you're using the Mintty terminal emulator in Cygwin, may need to set the
    # "Backspace sends ^H" setting in "Keys" section of the Mintty options
    # (see https://github.com/sbt/sbt/issues/562).
    stty -icanon min 1 -echo > /dev/null 2>&1
    export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Djline.terminal=unix"
    "${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"
    stty icanon echo > /dev/null 2>&1
  else
    export SPARK_SUBMIT_OPTS
    "${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"
  fi
}

"bin/spark-submit" 中会继续调用spark-class,并制定执行类org.apache.spark.deploy.SparkSubmit

if [ -z "${SPARK_HOME}" ]; then
  source "$(dirname "$0")"/find-spark-home
fi

# disable randomized hash for string in Python 3.3+
export PYTHONHASHSEED=0

exec "${SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"
在bin/spark-class中
首先找到runner,这里看到是调用java
# Find the java binary
if [ -n "${JAVA_HOME}" ]; then
  RUNNER="${JAVA_HOME}/bin/java"
else
  if [ "$(command -v java)" ]; then
    RUNNER="java"
  else
    echo "JAVA_HOME is not set" >&2
    exit 1
  fi
fi

可以看到是调用java 运行org.apache.spark.launcher.Main 这个类

build_command() {
  "$RUNNER" -Xmx128m -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "$@"
  printf "%d\0" $?
}
下面将build_command 中的保存到CMD
set +o posix
CMD=()
while IFS= read -d '' -r ARG; do
  CMD+=("$ARG")
done < <(build_command "$@")

最后执行java
CMD=("${CMD[@]:0:$LAST}")
exec "${CMD[@]}"


最终在launcher.Main 中调用sparksubmit->repl->sparkloop.process->initializespark->createsparkcontext 至此最重要的
sparkcontext登场了

 

### 如何使用 spark-shell 运行 Scala 代码 `spark-shell` 是 Apache Spark 提供的一个交互式 Scala Shell,用于快速测试和运行 Scala 代码[^1]。它允许用户在无需编译的情况下直接执行 Scala 脚本或命令。以下是关于如何使用 `spark-shell` 运行 Scala 代码的详细说明。 #### 启动 spark-shell 启动 `spark-shell` 的基本命令如下: ```bash spark-shell --master local[N] ``` 其中 `local[N]` 表示本地模式,并指定使用 N 个线程来模拟集群环境。如果未指定 `[N]`,默认值为 1[^1]。 #### 在 spark-shell 中运行 Scala 代码 启动后,用户可以直接在 `spark-shell` 提示符下输入 Scala 代码并立即查看结果。例如: ```scala val textFile = sc.textFile("hdfs://path/to/file") val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) wordCount.collect().foreach(println) ``` 上述代码从 HDFS 中读取文件,对每个单词进行计数,并打印结果[^1]。 #### 加载外部 Scala 文件 如果需要运行保存在文件中的 Scala 代码,可以使用 `:load` 命令加载文件。例如: ```bash :load /path/to/your/scala/file.scala ``` 这将执行文件中的所有代码[^2]。 #### 检查使用的 Scala 版本 不同的 Spark 版本支持不同的 Scala 版本。例如,Spark 3.3.2 使用的是 Scala 2.12.15,而 Spark 3.1.3 使用的是 Scala 2.12.10[^3]。可以通过以下命令检查当前 `spark-shell` 使用的 Scala 版本: ```scala scala.util.Properties.versionString ``` #### 示例代码 以下是一个简单的 Scala 程序,演示如何在 `spark-shell` 中计算包含特定字符的行数: ```scala val logFile = "file:///usr/local/spark-2.1.0/README.md" val sc = new org.apache.spark.SparkContext(new org.apache.spark.SparkConf().setAppName("Simple Application").setMaster("local")) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println(s"Lines with a: $numAs, Lines with b: $numBs") ``` 此代码片段读取本地文件,统计包含字符 `a` 和 `b` 的行数,并输出结果[^2]。 ### 注意事项 - 确保 Spark 环境已正确配置,包括 Hadoop 和其他依赖项。 - 如果需要访问 HDFS 文件,请确保 HDFS 集群可用,并提供正确的 URI。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值