安装spark集群详细介绍

本文详细介绍了在特定环境下安装Spark依赖组件(包括JDK、Scala、SSH免密码登陆、Hadoop和Spark),并配置基础环境,如服务器分布、主机名修改、hosts配置等。此外,还涵盖了安装和配置JDK、Scala、Hadoop的过程,以及如何使用SSH免密码登录进行远程操作。最后,文章展示了如何安装和配置Spark,包括环境变量设置、提交作业到集群或YARN的方法,以及验证集群状态和解决常见安装错误的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、安装spark依赖的内容

1. JDK

    Sparkscala语言编写,但是仍然运行在JVM

2. Scala

    由Scala语言编写,代码依赖Scala环境进行编译

3. SSH免密码登陆

    这一步的作用是,使得集群节点可以无密码访问

4. Hadoop

    Hdfs作为spark的存储环境,所以需要安装,本文配置的spark支持spark on yarn,因此Hadoop也是安装的yarn版本的

5. Spark

   安装Spark,执行spark代码

6. 备注:

① 我的所有操作均在/home/jiang这个文件夹下,用户名也为jiang

② 加“***”标记时,表示所有机器均要执行,否则,会做详细说明

③ 我的软件包配置:jdk1.7.0_79 Scala-2.9.3hadoop-2.5.2spark-1.1.0

     所有软件的下载请点击这里:http://pan.baidu.com/s/1dDEtS1z

二、基础环境

1. 我的服务器分布

       IP地址         主机名       功能

     192.168.1.25              dmdb-25             主节点(master)同时当做备份节点

     192.168.1.26              node2                  数据节点

     192.168.1.23              node3                  数据节点

2. 具体操作:

   要形成上述的服务器分布,第一步就是修改各个机器的主机名。***

    $ vi /etc/hostname

第二步,配置hosts ***

$ vi /etc/hosts

最后通过ping命令可以检查配置是否正确。***

$ ping node2

3. SSH免密码登陆

第一步:在所有机器上都生成公钥私钥(这期间一路回车即可)***

$ ssh-keygen -t rsa -P ‘’

第二步:将公钥写入信任文件,并修改信任文件的权限 ***

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ chmod 600 ~/.ssh/authorized_keys

第三步:将每台机器的公钥发给master结点(仅在数据节点执行)

$ scp authorized_keys jiang@192.168.1.25:/home/jiang/.ssh/ 或者

$ scp authorized_keys jiang@dmdb-25:/home/jiang/.ssh/

至此,主节点可以免密码登陆子节点,(第一次登陆需要输入密码)

如果需要各子节点之间也能够互相通信,就将master结点的authorized_keys分发给每台子节点:

eg: $ scp ~/.ssh/authorized_keys jiang@node2:~/.ssh/

 

三、JDk安装与配置  ***

1. 在/home/jiang目录下直接解压

$ tar -zxvf  jdk-7u79-linux-x64.tar.gz

2. 将解压后的文件夹重命名为jdk1.7.0_79

$ mv jdk-7u79-linux-x64 jdk1.7.0_79

3. 配置环境变量 

$ sudo vi /etc/profile

配置如下:

export JAVA_HOME=/home/jiang/jdk1.7.0_79
export JRE_HOME=/home/jiang/jdk1.7.0_75/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

4. 使环境变量生效

   $ source /etc/profile

5. 检验是否安装成功

    $ java -version

四、Scala安装与配置  ***

做法与JDk的相似,环境变量的配置如下:

export SCALA_HOME=/home/jiang/scala-2.9.3

export PATH=$PATH:$SCALA_HOME/bin

注意最后使环境变量生效!!!

 

五、Hadoop安装

1. 解压到/home/jiang/hadoop-2.5.2   ***

2. 配置环境变量   ***

   $ sudo vi /etc/profile

配置如下:

export HADOOP_HOME=/home/jiang/hadoop-2.5.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export HADOOP_YARN_HOME=${HADOOP_HOME}

3. $ source /etc/profile    ***

4. 进入hadoop-2.5.2/etc/hadoop/,在该目录下需要配置7个文件:hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlyarn-env.shslavesmasters   ***

① $ vi hadoop-env.sh

    加上 export JAVA_HOME=/home/jiang/jdk1.7.0_79

② $ vi core-site.xml

    

③ $ vi hdfs-site.xml

    

④ $ vi mapred-site.xml

    

⑤ $ vi yarn-site.xml

    

⑥ $ vi yarn-env.sh

    加上 export JAVA_HOME=/home/jiang/jdk1.7.0_79

⑦ $ vi slaves

    将localhost去掉,加上node2等子节点,一行一个

⑧ $ vi masters

    写上主节点dmdb-25。(可能没有masters文件,该操作会创建一个)

    注:有出现mapred-site.xml.template这样的文件时,将其进行合并:

$ mv mapred-site.xml.template mapred-site.xml

5.  因为所有机器的配置相同,所以上述操作在一台机器上完成后,复制到其他的主机上,在/home/jiang目录下:$ scp -r hadoop-2.5.2 node2:/home/jiang/

6.  格式化hadoop(仅在主节点上进行)

/home/jiang/hadoop-2.5.2/bin目录下:$ hadoop namenode -format

7.  hadoop集群安装完成,启动(仅在主节点进行)

/home/jiang/hadoop-2.5.2/sbin目录下启动Hdfs$ start-dfs.sh

在同样的目录下启动yarn$ start-yarn.sh

8.  验证 ***

$ jps

在主节点应该有:JpsNameNodeResourceManager,SecondaryNameNode

子节点:JpsDataNodeNodeManager

通过网址:dmdb-25:50070可以查看Hdfs的管理界面

          dmdb-25:8088可以看到Yarn的管理界面

9. 关闭(仅在主节点)

  $ stop-dfs.sh      关闭hdfs

  $ stop-yarn.sh     关闭yarn

六、Spark安装 

1. 解压到目录/home/jiang/spark-1.1.0    ***

2. 配置环境变量   ***

$ sudo vi /etc/profile

配置如下:

export SPARK_HOME=/home/jiang/spark-1.1.0
export PATH=$PATH:$SPARK_HOME/bin

3. $ source /etc/profile    ***

4. 进入spark-1.1.0/conf/目录,需要编辑两个文件:spark-env.shslaves   ***

① $ vi spark-env.sh

 

② $ vi slaves

  增加所有的子节点主机名,node2,一行一个

5.  在spark-1.1.0/sbin/目录下启动spark集群(仅在master结点)

6. 验证  $ jps    ***

  

  已启动进程:yarn(ResourceManager) spark(Master)hdfs(NameNode)、SecondaryNameNode

  上图显示的是master,在子节点jps会看到JpsNodeManagerWorkerDataNode

  通过网址:dmdb-25:8089查看spark集群

7. 运行例子(仅在主节点)

   任务的提交有两种,提交到集群或者提交到yarn

   用spark-submit提交作业的方式运行spark自带的计算Pi的例子,在目录/home/jiang/spark-1.1.0/lib/下可以看到jarspark-examples-1.1.0-hadoop2.4.0.jar

① 提交到集群,在/home/jiang/spark-1.1.0目录下运行:

$ ./bin/spark-submit --master spark:dmdb-25:7077        

                --class org.apache.spark.examples.SparkPi

           /home/jiang/spark-1.1.0/lib/spark-examples-1.1.0-hadoop2.4.0.jar

其中,--master 表示提交任务的方式,--class表示主类,运行结果可以输出中看到:

 

并且可以通过spark的集群管理页面dmdb-25:8089看到任务的提交:

 

② 提交到yarn,在/home/jiang/spark-1.1.0目录下运行:

$ ./bin/spark-submit --master yarn-client        

                --class org.apache.spark.examples.SparkPi

                --executor-memory 400m

                --driver-memory 400m

           /home/jiang/spark-1.1.0/lib/spark-examples-1.1.0-hadoop2.4.0.jar

通过yarn的管理界面dmdb-25:8088查看:

           

七、安装错误解决

1. 格式化hadoop时,出现“找不到hadoop命令”

解决办法:我的机器出现这个问题是因为拷贝过来的hadoop文件夹是root权限,

hadoop的使用者是jiang,应该直接拷贝压缩包,然后解压,权限就是jiang

用户。出现这个问题还有可能是配置文件/etc/profile没有配好。

2. 启动hdfs的时候出现:org.apache.hadoop.ipc.RemoteException:org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create............... Name node is in safe mode.

解决方法:关闭安全模式  

    bin/hadoop dfsadmin -safemode leav

3. 停止hadoop时,出现”no datanode to stop”

解决办法:在每个节点都执行,删除目录/home/jiang/hadoop-2.5.2/dfs/data,删除 

    data文件夹,然后重新格式化hadoop

4. 在提交作业到yarn上时,遇到如下警告:

WARN YarnClientClusterScheduler: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory

解决方法:修改配置文件spark-env.sh,根据自己机器的实际情况分配内存大小

5. 停止yarn时,出现”no DataManager to stop”

   解决办法:查看日志发现是hadoop下的配置文件yarn-site.xml出现了异常字符。重新配置即解决。

6.  错误信息:“no route to host

解决办法:关闭防火墙 $ sudo ufw disable

7.  启动spark时出现错误:

   Error:[Association failed with [akka.tcp://sparkMaster@192.168.1.25:7077]].

   解决办法:配置文件spark-env.shalone模式和yarn模式搞混淆了,重新配置正确。

标题基于SpringBoot+Vue的社区便民服务平台研究AI更换标题第1章引言介绍社区便民服务平台的研究背景、意义,以及基于SpringBoot+Vue技术的研究现状和创新点。1.1研究背景与意义分析社区便民服务的重要性,以及SpringBoot+Vue技术在平台建设中的优势。1.2国内外研究现状概述国内外在社区便民服务平台方面的发展现状。1.3研究方法与创新点阐述本文采用的研究方法和在SpringBoot+Vue技术应用上的创新之处。第2章相关理论介绍SpringBoot和Vue的相关理论基础,以及它们在社区便民服务平台中的应用。2.1SpringBoot技术概述解释SpringBoot的基本概念、特点及其在便民服务平台中的应用价值。2.2Vue技术概述阐述Vue的核心思想、技术特性及其在前端界面开发中的优势。2.3SpringBoot与Vue的整合应用探讨SpringBoot与Vue如何有效整合,以提升社区便民服务平台的性能。第3章平台需求分析与设计分析社区便民服务平台的需求,并基于SpringBoot+Vue技术进行平台设计。3.1需求分析明确平台需满足的功能需求和性能需求。3.2架构设计设计平台的整体架构,包括前后端分离、模块化设计等思想。3.3数据库设计根据平台需求设计合理的数据库结构,包括数据表、字段等。第4章平台实现与关键技术详细阐述基于SpringBoot+Vue的社区便民服务平台的实现过程及关键技术。4.1后端服务实现使用SpringBoot实现后端服务,包括用户管理、服务管理等核心功能。4.2前端界面实现采用Vue技术实现前端界面,提供友好的用户交互体验。4.3前后端交互技术探讨前后端数据交互的方式,如RESTful API、WebSocket等。第5章平台测试与优化对实现的社区便民服务平台进行全面测试,并针对问题进行优化。5.1测试环境与工具介绍测试
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值