standalone 模式安装

本文详细介绍了如何在Standalone模式下安装Spark 1.6.0,包括必要的前置条件如JDK、Scala和Hadoop的安装,以及如何配置环境变量、hosts文件、spark-default.conf和spark-env.sh等关键步骤。此外,还提供了启动和停止Spark集群的命令。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

spark-1.6.0-cdh5.15.0 standalone 模式安装

 

更多资源

  • github: https://github.com/opensourceteams/spark-scala-maven

  • csdn(汇总视频在线看): https://blog.youkuaiyun.com/thinktothings/article/details/84726769

 

前置条件

  • jdk ( 1.8.0_181)已安装

  • scala(2.10.7)已安装

  • hadoop(hadoop-2.6.0-cdh5.15.0)已安装,hdfs已启动

  • 第三方jar


 

spark 依赖jar 文件配置,放置在 $SPARK_HOME/lib/*

parquet-hadoop-1.4.3.jar

jackson-databind-2.4.4.jar

jackson-annotations-2.4.4.jar

jackson-core-2.4.4.jar

jackson-module-scala_2.10-2.4.4.jar

​

​

<dependency>

<groupId>com.twitter</groupId>

<artifactId>parquet-hadoop</artifactId>

<version>1.4.3</version>

</dependency>

 

配置

 

环境变量配置


 
export JAVA_HOME=/opt/module/jdk/jdk1.8.0_191

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export SCALA_HOME=/opt/module/scala/scala-2.10.7

export HADOOP_HOME=/opt/module/bigdata/hadoop-2.6.0-cdh5.15.0

export SPARK_HOME=/opt/module/bigdata/spark-1.6.0-cdh5.15.0

​

export PATH=$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

 

host配置


 
#/etc/hosts文件配置 IP到域名的配置

192.168.88.200 standalone.com standalone

 

spark-default.conf 配置


 
spark.master=spark://standalone.com:7077

spark.eventLog.enabled=true

spark.eventLog.dir=hdfs://standalone.com:9000/spark/log/eventLog

spark.serializer=org.apache.spark.serializer.KryoSerializer

spark.driver.memory=2g

​

​

#history

spark.history.fs.logDirectory=hdfs://standalone.com:9000/spark/log/historyEventLog

#The port to which the web interface of the history server binds.

spark.history.ui.port=18080

# The period at which information displayed by this history server is updated. Each update checks for any changes made to the event logs in persisted storage.

spark.history.fs.update.interval=10s

# The number of application UIs to retain. If this cap is exceeded, then the oldest applications will be removed.

spark.history.retainedApplications=50

spark.history.fs.cleaner.enabled=false

spark.history.fs.cleaner.interval=1d

spark.history.fs.cleaner.maxAge=7d

spark.history.ui.acls.enable=false

 

spark-env.sh 配置


 
export SPARK_DIST_CLASSPATH=${SPARK_HOME}/lib/*:$(${HADOOP_HOME}/bin/hadoop classpath)

SPARK_MASTER_IP=standalone.com

SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080

SPARK_WORKER_MEMORY=2g

​

SPARK_PRINT_LAUNCH_COMMAND=true #显示Main启动类执行的命令

 

salves配置


 
standalone.com

 

启动命令

 

启动 master 命令


 
start-master.sh

 

停止master命令


 
stop-master.sh

 

启动 worker 命令


 
start-slave.sh spark://standalone.com:7077

 

停止 worker 命令


 
stop-slave.sh

 

启动 history 命令


 
start-history-server.sh

 

停止 history 命令


 
stop-history-server.sh

 

启动 spark-shell 命令


 
spark-shell --master spark://standalone.com:7077

 

提交命令

 

spark-submit 命令


 
spark-submit \

--class com.opensource.bigdata.spark.standalone.RunTextFileMkString2 \

--master spark://standalone:7077 \

--executor-memory 1G \

--total-executor-cores 100 \

/root/temp/spark-scala-maven-1.0-SNAPSHOT.jar \

 
spark-submit \

--class com.opensource.bigdata.spark.standalone.RunTextFileMkString2 \

--master spark://standalone:7077 \

--deploy-mode client\

--executor-memory 1G \

--total-executor-cores 100 \

/root/temp/spark-scala-maven-1.0-SNAPSHOT.jar \

 

### 如何在Standalone模式安装Spark 2.3.2 #### 下载并解压Spark包 为了在独立(standalone)模式下部署Apache Spark,首先需要获取适合的二进制分发版。考虑到特定版本的需求,应手动下载而不是通过脚本来完成此操作。 ```bash wget http://archive.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz tar -xzvf spark-2.3.2-bin-hadoop2.7.tgz mv spark-2.3.2-bin-hadoop2.7 /usr/local/spark ``` #### 配置环境变量 为了让命令行工具能够识别新安装Spark路径,需设置`SPARK_HOME`和更新系统的`PATH`变量。 ```bash export SPARK_HOME=/usr/local/spark export PATH=$SPARK_HOME/bin:$PATH ``` 上述更改可以在用户的`.bashrc`文件中永久保存下来以便每次登录时自动加载这些配置[^1]。 #### 修改`spark-env.sh` 对于standalone集群来说,在`$SPARK_HOME/conf/`目录下的`spark-env.sh`文件里指定必要的参数非常重要。不同于其他部署方式,在这里无需定义`SPARK_MASTER_HOST`或`SPARK_MASTER_PORT`这样的属性;但是可能要指明Java家目录或者其他依赖项的位置。 ```bash cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh vi $SPARK_HOME/conf/spark-env.sh ``` 编辑后的文件应该至少包含如下几行: ```bash export JAVA_HOME=/path/to/java # 如果适用的话还可以加入更多自定义选项... ``` #### 启动Master节点和服务 一旦完成了前面几步的操作之后就可以启动master服务了。这可以通过简单的shell指令来实现: ```bash start-master.sh ``` 接着可以查看控制台输出确认它已经成功启动,并记下URL用于后续连接worker节点。 #### 添加Worker节点 同样地,每一个想要作为计算资源贡献者的机器都需要重复上面提到过的大部分步骤——即下载、解压缩软件包并将相应的环境变量添加到其本地环境中去。然后只需在一个新的终端窗口内运行下面这条命令即可让该计算机成为集群的一部分: ```bash start-slave.sh <master-url> ``` 其中`<master-url>`就是之前从master进程中获得的那个地址字符串[^2]。 #### 测试集群状态 最后一步是验证整个setup过程是否顺利完成。打开浏览器导航至http://localhost:8080 (假设是在同一主机上),应当能看到有关当前活跃workers的信息列表以及其他有用统计数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值