Spark On Yarn 详细配置流程

最新推荐文章于 2025-06-16 19:54:01 发布

王磊从此立志做稳健少年

最新推荐文章于 2025-06-16 19:54:01 发布

阅读量1.5w

点赞数 3

CC 4.0 BY-SA版权

分类专栏：大数据-spark 文章标签： spark cluster yarn 环境配置 centos

本文链接：https://blog.youkuaiyun.com/qq_23330633/article/details/52216155

本文档详细介绍了在CentOS7环境下，如何配置Spark on Yarn集群，包括系统与软件准备、Scala安装、SSH免登录配置、Zookeeper安装、Hadoop HDFS HA集群部署、Spark安装与配置，以及最后的测试流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、系统与软件准备

系统：centos7

软件：

hadoop-2.7.2.tar.gz，请勿选择src版本，否则需要自行编译
jdk-7u79-linux-x64.tar.gz
scala-2.10.3.tgz
spark-1.6.1-bin-hadoop2.6.tgz，选择hadooppre-built版本，否则需要安装后编译
zookeeper-3.3.6.tar.gz

2、详细配置流程说明

1，JDK配置

# tar xvzf jdk-7u45-linux-x64.tar.gz -C/usr/local

# cd /usr/local

# ln -s jdk1.7.0_45 jdk

# vim /etc/profile 加入以下内容

export JAVA_HOME=/usr/local/jdk 
export CLASS_PATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib 
export PATH=$PATH:$JAVA_HOME/bin

# source /etc/profile

2. Scala安装

# tar xvzf scala-2.10.3.tgz -C/usr/local

# cd /usr/local

# ln -s scala-2.10.3 scala

# vim /etc/profile 加入以下内容

export SCALA_HOME=/usr/local/scala 
export PATH=$PATH:$SCALA_HOME/bin

3. SSH免登录配置

#ssh-keygen

在node1下生成的密钥对：id_rsa和id_rsa.pub，默认存储在"~/.ssh"目录下，包括两个文件，id_rsa和id_rsa.pub，分别为私钥和公钥

将公钥写入信任文件中

#cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

然后修改authorized_keys文件的权限

#chmod 644 ~/.ssh/authorized_keys

node1中的authorized_keys拷贝至其余节点的~/.ssh目录下，修改SSH配置文件"/etc/ssh/sshd_config"的下列内容（这步可以省略）

RSAAuthentication yes # 启用 RSA 认证

PubkeyAuthentication yes # 启用公钥私钥配对认证方式

AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径（和上面生成的文件同）

#service sshd restart

重启SSH服务

4.主机名设置

# vim /etc/hosts

10.25.248.1    node1
10.25.248.29   node2
10.25.248.17   node3

#vi /etc/sysconfig/network

HOSTNAME=node1/node2/node3

5. Zookeeper安装

# mkdir –p /root/data/hadoop/zookeeper/{data,logs}

两个文件夹都需要预先建立好，否则会运行时会报错

# vim /usr/local/zookeeper/conf/zoo.cfg

tickTime=2000
initLimit=10
syncLimit=5
 
dataDir=/root/data/hadoop/zookeeper/data
clientPort=2181
 
server.1=10.25.248.1:2888:3888
server.2=10.25.248.29:2888:3888
server.3=10.25.248.17:2888:3888

接着在/root/data/hadoop/zookeeper/data下分别建立名为myid文件，文件内容为上述zoo.cfg中IP地址对应server.[number]中的number

node1 : echo 1 > /root/data/hadoop/zookeeper/data/myid

node2 : echo 2 > /root/data/hadoop/zookeeper/data/myid

node3 : echo 3 > /root/data/hadoop/zookeeper/data/myid

执行zkServer.sh start启动zookeeper，相应zkServer.shstop退出，zkServer.sh status查看状态

分别在node1，node2，node3执行zkServer.sh start，然后通过zkServer.sh status查看状态，如果发现每个node当前状态标记为follower或者leader，那么测试通过