安装分布式spark

Spark 3.0 集群搭建指南

最新推荐文章于 2024-12-16 16:45:44 发布

原创最新推荐文章于 2024-12-16 16:45:44 发布 · 292 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

1. 下载

http://spark.apache.org/downloads.html

如：版本自行选择

sudo wget https://mirror.bit.edu.cn/apache/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz

2. 解压

 sudo tar -zxvf spark-3.0.0-preview2-bin-hadoop3.2.tgz -C  /usr/local/bigdata/

mv spark-3.0.0-preview2-bin-hadoop3.2/ spark

3. 配置环境变量

vim ~/.bashrc

加入以下内容：

export JAVA_HOME=/usr/local/jdk
export SPARK_HOME=/usr/local/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

4.1 配置slave文件

sudo cp ./conf/slaves.template ./conf/slaves

编辑slaves文件，指定子节点

slave1
slave2

4.2 配置spark-env.sh，加入以下内容

sudo cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑加入以下内容

export SPARK_DIST_CLASSPATH=$(/usr/local/bigdata/hadoop/hadoop-3.2.1/bin/hadoop classpath)
export HADOOP_CONF_DIR=/usr/local/bigdata/hadoop/hadoop-3.2.1/etc/hadoop
export SPARK_MASTER_IP=主节点的ip

注：注意ip是master的ip，文件路径要对，是基于hadoop的文件路径

5. 打包并且发送到两个slave节点

打包

tar -zcf ~/spark.master.tar.gz ./spark

发送到子节点

cd ~
scp spark.master.tar.gz slave2:/home/hadoop/

6. slave节点解压

sudo tar -zxf ~/spark.master.tar.gz -C /usr/local/bigdata

7. 启动集群

主节点执行

./sbin/start-master.sh

权限不足执行：

sudo chown -R hadoop hadoop ./spark/

启动成功

可以看出多出了一个Master进程，说明master启动成功

下面启动slave节点，在master节点执行

./sbin/start-slaves.sh

可以看出子节点多出了一个Work进程。

访问http://master:8080

安装完毕！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

代码手艺人老羊

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据-玩转数据-Spark分布式安装

s_unbo的博客

12-21

591

大数据-玩转数据-Spark分布式安装说明：之前已经安装配置过了 Hadoop 的 hdfs，yarn 分布式集群，在此基础上进行spark的安装（基于jvm，可以不安装scala） 1.安装spark 1.1下载Spark安装包：去官网下载： Download Spark: spark-2.1.1-bin-hadoop2.6.tgz 下载地址：http://spark.apache.org/downloads.html 1.2上传解压：在上传目录下 [root@hadoop1 ]# tar -z

Spark在分布式环境中的安装

weixin_43874447的博客

12-04

803

文章目录Spark在分布式环境中的安装1.安装 scala1.1上传1.2解压1.3重命名1.4添加环境变量1.5配置文件生效1.6验证2.安装Spark2.1上传2.2重命名2.3添加环境变量2.4环境变量生效2.5修改配置文件2.6启动并体验2.6.1 启动2.6.2 停止3.Spark HA的环境安装3.1修改配置文件3.2启动HA集群3.3HA集群的验证3.3HA集群的验证 Spark在...

参与评论您还未登录，请先登录后发表或查看评论

Spark【一】简介及完全分布式安装

weixin_42487460的博客

07-26

613

Spark简介及完全分布式安装初识Spark为什么使用SparkSpark优势完全分布式安装及启动启动命令初识Spark 为什么使用Spark MapReduce编程模型的局限性繁杂只有Map和Reduce两个操作，复杂的逻辑需要大量的样板代码处理效率低 Map中间结果写磁盘，Reduce写HDFS，多个Map通过HDFS交换数据任务调度与启动开销大不适合迭代处理、交互式处理和流式处理 Spark是类Hadoop MapReduce的通用并行框架 Job中间输出结果可

spark0.9分布式安装

myboyliu2007的专栏

02-08

8675

spark安装包：spark-0.9.0-incubating-bin-hadoop2.tgz 操作系统： CentOS6.4 jdk版本： jdk1.7.0_21 1. Cluster模式 1.1 安装Hadoop 用VMware Workstation 创建三台CentOS 虚拟机，hostname分别设置为 master,slaver01, slaver02

spark分布式安装配置

JHC_binge的博客

01-25

275

1.配置worker vim conf/slaves.template 2.配置master vim spark-env.sh export JAVA_HOME=/usr/local/jdk1.8.0_201 export SCALA_HOME=/usr/local/scala export HADOOP_HOME=/usr/local/hadoop export HADOOP...

hadoop与spark分布式安装

05-31

hadoop与spark分布式安装，内容详细，亲自搭建成功。助于新手

搭建分布式Spark集群

win71的博客

12-16

709

【代码】搭建分布式Spark集群。

基于centos7的hadoop伪分布式spark+scala（详细教程）

2303_77609267的博客

04-27

1264

准备活动：需要scala和spark安装包。

搭建单机伪分布式Spark和Scala

2201_75857015的博客

04-27

758

复制/opt/hadoop/etc/hadoop/mapred-site.xml.tmplate 名为mapred-site.xml。在浏览器的地址栏输入http://192.168.20.11:50070,进入页面可以查看NameNode和DataNode信息。将hadoop-2.7.1.tar.gz压缩包解压到/opt目录下，并将解压文件改名为hadoop。查看网页http://192.168.20.11:8080。将安装包解压到/usr/local/src 目录下。进入spark目录的/sbin。

Spark集群完全分布式安装部署

爱璇子爱生活

05-18

4104

Spark集群完全分布式安装部署下载安装配置Spark 1spark-envsh配置 2slaves配置 3profile配置复制到其他节点测试总结Spark集群完全分布式安装部署本文中所提到的Spark集群所用的系统环境是Centos6.5，共4个节点，前提是Hadoop、JDK都已经安装配置好了，操作都是在hadoop用户下进行（要保证spark安装目录的所属是hadoop用户，权限也

Spark分布式安装

weixin_34291004的博客

03-13

117

为什么80%的码农都做不了架构师？>>> ...

Spark 分布式安装

专注大规模数据处理

08-19

787

环境： spark1.6.0,scala-2.11.0,hadoop-2.6.4 centos x64，三节点 192.168.58.11 c1 #master 192.168.58.12 c2 #slave 192.168.58.13 c3 #slave1.前提：安装JDK，安装hadoop，有安装hadoop 分布式集群的能力2.安装Scala下载：sc

spark分布式安装

iteye_8936的博客

11-03

134

1.如果没安装需要安装 scala,因为spark需要同时在 /etc/profile 增加 export SCALA_HOME=/scal路径/scala-2.11.7 export PATH=$SCALA_HOME/bin:$PATH 执行 source /etc/profile 使配置文件生效 2.下载spark安装包 ...

Spark 完全分布式安装

孔繁玉的专栏

02-20

860

详细参考如下作者文章https://www.cnblogs.com/purstar/p/6293605.html补充一点就是spark-env.sh配置,前面一直报错找不到 slf4j的jar包，复制到spark的jars还是有问题，最终的解决是加入SPARK_DIST_CLASSPATHexport SCALA_HOME=/usr/local/bigdata/scala-2.10.7export...

Spark之全分布式安装

04-20

346

一、分布环境前提：Linux环境，JDK版本1.8版本 Spark：版本2.2.1 Hadoop：版本2.6.1 二、解压 tar -zxvf spark-2.2.1-bin-hadoop2.6.tgz mv spark-2.2.1-bin-hadoop2.6 spark 三、修改配置文件 /opt/spark/conf spark-env.sh： export JAVA_HOME=/o...

spark完全分布式安装

Abraham Ben

06-27

415

Spark完全分布式安装1. 下载正确的java, scala(注意下载.tgz版本)安装并配置环境变量(省略)2. 下载spark，然后配置slaves和spark-env.shcp slaves.template slaves cp spark-env.sh.template spark-env.sh Spark-env.sh(可不配置，此时采用默认参数): slaves:3.配置spar

基于Hadoop的Spark完全分布式安装

Stevenson的博客

07-19

447

第一步安装scala 第二步Spark安装第三步Spark简单实例运行第一步安装scala安装spark之前首先要安装scala。再官方网站上下载对应的scala安装文件，这里下载的是scala-2.10.4版本，用命令行下载过程如下wget http://www.scala-lang.org/download/2.10.4.html然后向下寻找相应的链接，其中就有对应Unix系统的，w3

分布式学习-1 Hadoop Spark安装

weixin_45385568的博客

09-26

2345

折腾了一个多月的时间，成功实现了一些应用。学习过程中还是踩了不少坑的，所以在这里对整个构建过程进行整理，方便大家参考学习。

伪分布式spark安装配置在hadoop3.6

最新发布

08-08

在 Hadoop 3.6 环境下安装和配置伪分布式的 Spark 环境，需要确保系统已正确配置 Hadoop 伪分布式环境，并在此基础上部署 Spark。以下是详细步骤： ### 安装和配置 Spark 伪分布式环境 #### 1. 下载和解压 Spark 前往 [Apache Spark 官网](https://spark.apache.org/downloads.html) 下载适用于 Hadoop 3.6 的 Spark 发行包（例如 `spark-3.5.0-bin-hadoop3.6.tgz`）。 ```bash # 解压 Spark 安装包到指定目录 tar -xvzf spark-3.5.0-bin-hadoop3.6.tgz -C /opt/spark/ ``` #### 2. 配置环境变量编辑 `/etc/profile` 文件，添加 Spark 相关的环境变量[^3]： ```bash # Spark Environment Variables export SPARK_HOME=/opt/spark/spark-3.5.0-bin-hadoop3.6 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin ``` 执行以下命令使环境变量生效： ```bash source /etc/profile ``` #### 3. 配置 Spark 环境进入 Spark 配置目录： ```bash cd $SPARK_HOME/conf ``` - **spark-env.sh** 复制模板文件并编辑： ```bash cp spark-env.sh.template spark-env.sh ``` 编辑 `spark-env.sh` 文件，添加以下内容： ```bash export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 根据实际路径修改 export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop # Hadoop 配置目录 export SPARK_MASTER_HOST=localhost # Spark 主节点地址 ``` - **slaves**（或 `workers`） Spark 3.x 之后的版本中 `slaves` 文件已更名为 `workers`。编辑 `workers` 文件，添加工作节点的主机名（伪分布式模式下只需添加 `localhost`）： ``` localhost ``` #### 4. 启动 Spark 伪分布式环境 - **启动 Spark Master** ```bash $SPARK_HOME/sbin/start-master.sh ``` 访问 `http://localhost:8080` 可查看 Spark Web UI。 - **启动 Spark Worker** ```bash $SPARK_HOME/sbin/start-worker.sh spark://localhost:7077 ``` #### 5. 测试 Spark 与 Hadoop 集成可以运行一个简单的 Spark 应用程序来测试与 Hadoop 的集成情况。例如，使用 `SparkPi` 示例： ```bash $SPARK_HOME/bin/run-example SparkPi 10 ``` 该示例会计算 π 的近似值，并输出结果。 #### 6. 提交 Spark 作业到 Hadoop YARN 如果希望在 Hadoop YARN 上运行 Spark 作业，需配置 `spark-defaults.conf` 文件： ```bash # Spark on YARN 配置 spark.master yarn spark.submit.deployMode client spark.yarn.jars hdfs:///user/spark/jars/*.jar # 指向 HDFS 上的 Spark jars 目录 ``` 上传 Spark jars 到 HDFS： ```bash hadoop fs -mkdir -p /user/spark/jars hadoop fs -put $SPARK_HOME/jars/*.jar /user/spark/jars/ ``` 提交作业示例： ```bash $SPARK_HOME/bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode client \ $SPARK_HOME/examples/jars/spark-examples_2.12-3.5.0.jar 10 ``` ###