spark 部署

最新推荐文章于 2025-02-17 11:27:47 发布

原创最新推荐文章于 2025-02-17 11:27:47 发布 · 218 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

大数据专栏收录该内容

11 篇文章

订阅专栏

本文介绍了如何从ApacheSpark官网下载预构建的Spark3.3.2版本，适用于已安装Hadoop的环境。详细步骤包括下载、解压、配置Spark以访问Hadoop，以及不同运行模式的选择，如本地模式、集群模式等。

下载spark 安装包
spark官网下载

pre-built with user-provided 会支持更多的hadoop，已经安装了hadoop和java环境的选这个比较好

wget https://dlcdn.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz

安装

解压
tar -xvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local
改名
mv spark-3.3.2-bin-hadoop3.tgz spark
修改配置使spark 能访问hadoop
cd spark
cp conf/spark-env.sh.template conf/spark-env.sh
vim conf/spark-env.sh

最后一行添加

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop/bin/hadoop classpath)

交互
- 本地模式
  ./bin/spark-shell --master local 单线程
  ./bin/spark-shell --master local[*] 服务器线程数等效 ./bin/spark-shell
- 独立集群模式：hadoop 是伪分布式布置的，spark就只能是standAlone模式
  spark://HOST:PORT 默认7077
  spark://localhost:7077
- yarn-client 模式调试时用
  客户端可以获得查看信息
- yarn-cluster模式生产模式使用
  Spark的Driver节点从集群中选择