如何搭建spark yarn模式的集群

要搭建 Spark YARN 模式的集群,可按以下步骤进行:

1. 环境准备
系统:所有节点采用相同的 Linux 发行版,如 CentOS 7。
网络:各节点间网络可正常通信,可通过主机名相互访问。
用户:在所有节点创建相同用户名和密码的用户,该用户要有 sudo 权限。
JDK:安装 JDK 8 及以上版本,且配置好JAVA_HOME环境变量。
2. 安装和配置 Hadoop YARN
2.1 下载并解压 Hadoop
在所有节点上下载 Hadoop(如 Hadoop 3.3.1),并解压到指定目录:

bash

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -zxvf hadoop-3.3.1.tar.gz -C /opt/
2.2 配置 Hadoop 环境变量
在所有节点的~/.bashrc文件中添加以下内容:

bash

export HADOOP_HOME=/opt/hadoop-3.3.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后执行source ~/.bashrc使配置生效。

2.3 配置 Hadoop 核心文件
在$HADOOP_HOME/etc/hadoop目录下,编辑以下文件:

core-site.xml:
xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode:9000</value>
    </property>
</configuration>
hdfs-site.xml:
xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/data/hdfs/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/data/hdfs/datanode</value>
    </property>
</configuration>
yarn-site.xml:
xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>resourcemanager</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
mapred-site.xml:
xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
2.4 格式化 NameNode
在 NameNode 节点上执行以下命令:

bash

hdfs namenode -format
2.5 启动 Hadoop 集群
在 NameNode 节点上启动 HDFS 和 YARN:

bash

start-dfs.sh
start-yarn.sh
3. 安装和配置 Spark
3.1 下载并解压 Spark
在所有节点上下载 Spark(如 Spark 3.2.1),并解压到指定目录:

bash

wget https://downloads.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
tar -zxvf spark-3.2.1-bin-hadoop3.2.tgz -C /opt/
3.2 配置 Spark 环境变量
在所有节点的~/.bashrc文件中添加以下内容:

bash

export SPARK_HOME=/opt/spark-3.2.1-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
然后执行source ~/.bashrc使配置生效。

3.3 配置 Spark
在$SPARK_HOME/conf目录下,复制spark-env.sh.template为spark-env.sh,并编辑:

bash

cp spark-env.sh.template spark-env.sh
添加以下内容:

bash

export JAVA_HOME=/path/to/java
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_EXECUTOR_CORES=2
export SPARK_EXECUTOR_MEMORY=2g
export SPARK_DRIVER_MEMORY=1g
594601

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值