Spark概述和环境搭建

最新推荐文章于 2021-03-14 03:17:12 发布

弗瑞得姆

最新推荐文章于 2021-03-14 03:17:12 发布

阅读量311

点赞数

文章标签：大数据 spark

本文链接：https://blog.youkuaiyun.com/aiyin9511/article/details/105582383

版权

本文介绍了Spark的快速、易用、通用和兼容性的特点，讲解了Spark集群的安装步骤，包括下载、配置、启动和停止。重点讨论了Spark的高可用部署，特别是基于Zookeeper的解决方案，以及Spark的角色，包括Driver Program、Application、Cluster Manager等。最后，通过实例展示了如何在Spark Shell中执行本地和HDFS文件的单词计数任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么学习Spark

Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点**；但不同于MapReduce的是**Spark中的Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足

Spark特点

快

与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。
在这里插入图片描述

易用

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。
在这里插入图片描述

通用

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。

兼容性

Spark集群安装

1 下载spark安装包
下载地址spark官网：http://spark.apache.org/downloads.html
这里我们使用 spark-2.0.2-bin-hadoop2.7版本.

2 规划安装目录
/opt/bigdata
3 解压安装包
tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz
4 重命名目录
mv spark-2.0.2-bin-hadoop2.7 spark
5 修改配置文件

配置文件目录在 /opt/bigdata/spark/conf
 vi spark-env.sh 修改文件(先把spark-env.sh.template重命名为spark-env.sh)

#配置java环境变量
export JAVA_HOME=/opt/bigdata/jdk1.7.0_67
#指定spark老大Master的IP
export SPARK_MASTER_HOST=hdp-node-01
#指定spark老大Master的端口
export SPARK_MASTER_PORT=7077

 vi slaves 修改文件(先把slaves.template重命名为slaves)

hdp-node-02
hdp-node-03

6 拷贝配置到其他主机
通过scp 命令将spark的安装目录拷贝到其他机器上

scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata

7 配置spark环境变量
将spark添加到环境变量,添加以下内容到 /etc/profile

export SPARK_HOME=/opt/bigdata/spark
export PATH=$PATH:$SPARK_HOME/bin

注意最后 source /etc/profile 刷新配置
7 启动spark
#在主节点上启动spark
/opt/bigdata/spark/sbin/start-all.sh

8 停止spark
#在主节点上停止spark集群
/opt/bigdata/spark/sbin/stop-all.sh

9 spark的web界面
正常启动spark集群后，可以通过访问 http://hdp-node-01:8080,查看spark的web界面，查看相关信息。

四、 Spark HA高可用部署

高可用部署

Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存在着Master单点故障的问题。如何解决这个单点故障的问题，Spark提供了两种方案：
（1）基于文件系统的单点恢复(Single-Node Recovery with Local File System)。
主要用于开发或测试环境当spark提供目录保存spark Application和worker的注册信息，并将他们的恢复状态写入该目录中，这时，一旦Master发生故障，就可以通过重新启动Master进程（sbin/start-master.sh），恢复已运行的spark Application和worker的注册信息。
（2）基于zookeeper的Standby Masters(Standby Masters with ZooKeeper)。
用于生产模式。其基本原理是通过zookeeper来选举一个Master，其他的Master处于Standby状态。将spark集群连接到同一个ZooKeeper实例并启动多个Master，利用zookeeper提供的选举和状态保存功能，可以使一个Master被选举成活着的master，而其他Master处于Standby状态。如果现任Master死去，另一个Master会通过选举产生，并恢复到旧的Master状态，然后恢复调度。整个恢复过程可能要1-2分钟。

基于zookeeper的Spark HA高可用集群部署

该HA方案使用起来很简单，首先需要搭建一个zookeeper集群，然后启动zooKeeper集群，最后在不同节点上启动Master。具体配置如下：
(1)vim spark-env.sh
注释掉export SPARK_MASTER_HOST=hdp-node-01
(2)在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS，内容如下：

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=hdp-node-01:2181,hdp-node-02:2181,hdp-node-03:2181  -Dspark.deploy.zookeeper.dir=/spark"

参数说明
**spark.deploy.recoveryMode：**恢复模式（Master重新启动的模式）
有三种：(1)ZooKeeper (2) FileSystem (3)NONE
spark.deploy.zookeeper.url：ZooKeeper的Server地址
spark.deploy.zookeeper.dir：保存集群元数据信息的文件、目录。
包括Worker，Driver和Application。
注意：
在普通模式下启动spark集群，只需要在主机上面执行start-all.sh 就可以了。
在高可用模式下启动spark集群，先需要在任意一台节点上启动start-all.sh命令。然后在另外一台节点上单独启动master。命令start-master.sh。

Spark角色介绍

Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算，比Hadoop中MapReduce计算框架具有更高的实时性，同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目，并成功应用于商业集群中，学习Spark就需要了解其架构。
Spark架构图如下：
在这里插入图片描述
Spark架构使用了分布式计算中master-slave模型，master是集群中含有master进程的节点，slave是集群中含有worker进程的节点。
Driver Program：运行main函数并且新建SparkContext的程序
Application：基于Spark的应用程序，包含了driver程序和集群上的excutor。
Cluster Manager指的是在集群上获取资源的外部服务。目前有三种类型
（1）Standalone: spark原生的资源管理，由Master负责资源的分配
（2）Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架
（3）Hadoop Yarn: 主要是指Yarn中的ResourceManager
Worker Node：集群中任何可以运行Application代码的节点，在Standalone模式中指的是通过slaves文件配置的Worker节点，在Spark on Yarn模式下就是NodeManager节点
Executor：是在一个worker node上为某应⽤启动的⼀个进程，该进程负责运⾏任务，并且负责将数据存在内存或者磁盘上。每个应⽤都有各自独立的executor。
Task ：被送到某个executor上的工作单元。

六、初识Spark程序

执行第一个spark程序

普通模式提交任务：

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hdp-node-01:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
examples/jars/spark-examples_2.11-2.0.2.jar \
10

该算法是利用蒙特·卡罗算法求圆周率PI，通过计算机模拟大量的随机数，最终会计算出比较精确的π。
在这里插入图片描述
高可用模式提交任务：
在高可用模式下，因为涉及到多个Master，所以对于应用程序的提交就有了一点变化，因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单，只需要在SparkContext指向一个Master列表就可以了，
如spark://host1:port1,host2:port2,host3:port3，应用程序会轮询列表，找到活着的Master。

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hdp-node-01:7077,hdp-node-02:7077,hdp-node-03:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
examples/jars/spark-examples_2.11-2.0.2.jar \
10

启动Spark-Shell

spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序。

运行spark-shell --master local[N] 读取本地文件

单机模式：通过本地N个线程跑任务，只运行一个SparkSubmit进程。
（1）需求
读取本地文件，实现文件内的单词计数。本地文件words.txt 内容如下：

hello me
hello you
hello her
（2）运行spark-shell --master local[2]
在这里插入图片描述
观察启动的进程：
（3）编写scala代码

sc.textFile("file:///root///words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

代码说明：
sc：Spark-Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到，则直接应用sc即可。
textFile:读取数据文件
flatMap:对文件中的每一行数据进行压平切分,这里按照空格分隔。
map:对出现的每一个单词记为1（word，1）
reduceByKey:对相同的单词出现的次数进行累加
collect:触发任务执行，收集结果数据。

（4）观察结果：
在这里插入图片描述

运行spark-shell --master local[N] 读取HDFS上数据

(1)、整合spark和HDFS，修改配置文件
在spark-env.sh ，添加HADOOP_CONF_DIR配置，指明了hadoop的配置文件后，默认它就是使用的hdfs上的文件

export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop

在这里插入图片描述
(2)、再启动启动hdfs，然后重启spark集群
(3)、向hdfs上传一个文件到hdfs://hdp-node-01:9000/words.txt

(4)、在spark shell中用scala语言编写spark程序

sc.textFile("/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

运行spark-shell 指定具体的master地址

（1）需求:
spark-shell运行时指定具体的master地址，读取HDFS上的数据，做单词计数，然后将结果保存在HDFS上。

（2）执行启动命令：
spark-shell
–master spark://hdp-node-01:7077
–executor-memory 1g
–total-executor-cores 2
在这里插入图片描述
参数说明：
–master spark://hdp-node-01:7077 指定Master的地址
–executor-memory 1g 指定每个worker可用内存为1g
–total-executor-cores 2 指定整个集群使用的cup核数为2个

注意：
如果启动spark shell时没有指定master地址，但是也可以正常启动spark shell和执行spark shell中的程序，其实是启动了spark的local模式，该模式仅在本机启动一个进程，没有与集群建立联系。

（2）编写scala代码

sc.textFile("/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("/wc")

saveAsTextFile:保存结果数据到文件中
（3）查看hdfs上结果
在这里插入图片描述