之前自己学习了Kubernetes,加上Spark还需要依赖JDK和Hadoop,想想还是用Kubernetes安装Spark会更加方便。
我是参考这篇文章:
来看看基于Kubernetes的Spark部署完全指南
对应的Docker镜像Dockerfile文件和Kubernetes yaml文件下载:
developerhq/spark-kubernetes
记录一下自己遇到的几个问题:
(1)Error: Unable to initialize main class org.apache.spark.deploy.SparkSubmit Caused by: java.lang.NoClassDefFoundError: org/slf4j/Logger
我把文章里面提到的配置添加到了Dockerfile文件中,在Dockerfile文件末尾添加一行:
ENV SPARK_DIST_CLASSPATH=$HADOOP_HOME/etc/hadoop/*:$HADOOP_HOME/share/hadoop/common/lib/*: