Spark详细文本教学01

最新推荐文章于 2025-06-27 11:20:16 发布

原创最新推荐文章于 2025-06-27 11:20:16 发布 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

dongchenze

文章标签：

#大数据 #spark #java

大数据专栏收录该内容

45 篇文章

订阅专栏

这篇博客详细介绍了Spark的起源、特点、用户及用途，涵盖了Spark的集群角色、运行模式，包括Local、Standalone、Yarn和Mesos模式。讲解了Spark核心组件、SQL、Streaming、MLlib和GraphX，并提供了Spark集群安装步骤，强调了Standalone模式的配置，包括配置Job History Server。此外，还提及了Spark的高可用性和Yarn模式的安装。最后，讨论了如何在IDEA中使用Spark进行开发。

前言

你们好我是啊晨
前面更新完了scala，现在更新spark，因为如果你要学习spark肯定是要先学习，scala了的。
废话不多说，内容很多选择阅读就好，很详细。
请：

一、Spark概述

1、什么是Spark

在这里插入图片描述

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkCore、SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目，Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。

大一统的软件栈，各个组件关系密切并且可以相互调用，这种设计有几个好处：1、软件栈中所有的程序库和高级组件都可以从下层的改进中获益。2、运行整个软件栈的代价变小了。不需要运行 5 到 10 套独立的软件系统了，一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。3、能够构建出无缝整合不同处理模型的应用。
Spark的内置项目如下：

在这里插入图片描述
Spark Core：实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集(resilient distributed dataset，简称RDD)的 API 定义。

Spark SQL：是 Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。Spark SQL 支持多种数据源，比如 Hive 表、Parquet 以及 JSON 等。

Spark Streaming：是 Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API，并且与 Spark Core 中的 RDD API 高度对应。

Spark MLlib：提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。

GraphX：提供一个分布式图计算框架，能高效进行图计算。

集群管理器：Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark 支持在各种集群管理器(cluster manager)上运行，包括 Hadoop YARN、Apache Mesos，以及 Spark 自带的一个简易调度器，叫作独立调度器Standalone。

Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于凤巢、大搜索、直达号、百度大数据等业务；阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。

软件公司也分行业：通信（华为、浪潮、亚信、思特奇、东方国信、。。。。神州泰岳、科大讯飞、北京合力）金融（贷款存款）医疗政府（浪潮公安厅的系统）军工（保密）

2、Spark特点

1）快：与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。
在这里插入图片描述
2）易用：Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。
3）通用：Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。
4）兼容性：Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可以非常容易地部署和使用Spark。此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。

3、Spark的用户和用途

我们大致把Spark的用例分为两类：数据科学应用和数据处理应用。也就对应的有两种人群：数据科学家和工程师。
数据科学任务：主要是数据分析领域，数据科学家要负责分析数据并建模，具备 SQL、统计、预测建模(机器学习)等方面的经验，以及一定的使用 Python、 Matlab 或 R 语言进行编程的能力。
数据处理应用：工程师定义为使用 Spark 开发产环境中的数据处理应用的软件开发者，通过对接Spark的API实现对处理的处理和转换等任务。

二、Spark角色介绍及运行模式

1、集群角色

在这里插入图片描述
从物理部署层面上来看，Spark主要分为两种类型的节点，Master节点和Worker节点：Master节点主要运行集群管理器的中心化部分，所承载的作用是分配Application到Worker节点，维护Worker节点，Driver，Application的状态。Worker节点负责具体的业务运行。
从Spark程序运行的层面来看，Spark主要分为驱动器节点和执行器节点。

2、运行模式

运行环境	模式	描述
Local	本地模式	常用于本地开发测试，如在eclipse，idea中写程序测试等。本地还分为local单线程和local-cluster多线程
Standalone	集群模式	Spark自带的一个资源调度框架，支持完全分布式。存在的Master单点故障可由ZooKeeper来实现HA（学习的时候时候）
Yarn	集群模式	运行在yarn资源管理器框架之上，由yarn负责资源管理，Spark负责任务调度和计算(生产上一般使用)
Mesos	集群模式	运行在mesos资源管理器框架之上，由mesos负责资源管理，Spark负责任务调度和计算
Kubernetes	集群模式	运行在Kubernetes资源管理的集群上，目前Kubernetes调度程序是实验性的

1）Local模式: Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。它可以通过以下集中方式设置master。
local: 所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式;
local[K]: 指定使用几个线程来运行计算，比如local[4]就是运行4个worker线程。通常我们的cpu有几个core，就指定几个线程，最大化利用cpu的计算能力;
local[*]: 这种模式直接帮你按照cpu最多cores来设置线程数了。
2）Standalone模式: 构建一个由Master+Slave构成的Spark集群，Spark运行在集群中。

在这里插入图片描述
3）Yarn模式: Spark客户端直接连接Yarn；不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点。
yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出
yarn-cluster：Driver程序运行在由RM（ResourceManager）启动的AP（APPMaster中，这种模式适用于生产环境
在这里插入图片描述

4）**Mesos模式:**Spark客户端直接连接Mesos；不需要额外构建Spark集群。国内应用比较少，更多的是运用yarn调度。

3、Spark的常用术语

术语	描述
Application	Spark的应用程序，包含一个Driver program和若干Executor
SparkContext	Spark应用程序的入口，负责调度各个运算资源，协调各个Worker Node上的Executor
Driver Program	运行Application的main()函数并且创建SparkContext
Executor	是为Application运行在Worker node上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上。每个Application都会申请各自的Executor来处理任务
ClusterManager	在集群上获取资源的外部服务(例如：Standalone、Mesos、Yarn)
Worker Node	集群中任何可以运行Application代码的节点，运行一个或多个Executor进程
Task	运行在Executor上的工作单元
Job	SparkContext提交的具体Action操作，常和Action对应
Stage	每个Job会被拆分很多组task，每组任务被称为Stage，也称TaskSet
RDD	是Resilient distributed datasets的简称，中文为弹性分布式数据集;是Spark最核心的模块和类
DAGScheduler	根据Job构建基于Stage的DAG，并提交Stage给TaskScheduler
TaskScheduler	将Taskset提交给Worker node集群运行并返回结果
Transformations	是Spark API的一种类型，Transformation返回值还是一个RDD，所有的Transformation采用的都是懒策略，如果只是将Transformation提交是不会执行计算的
Action	是Spark API的一种类型，Action返回值不是一个RDD，而是一个scala集合；计算只有在Action被提交的时候计算才被触发。

三、Spark集群安装

1、Spark安装地址

1．官网地址
http://spark.apache.org/
2．文档查看地址
https://spark.apache.org/docs/2.1.1/
3．下载地址
https://spark.apache.org/downloads.html

2、Standalone模式安装

根据自己配的地方编写
1）上传并解压spark安装包

[bigdata@hadoop101 sorfware]# tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
[bigdata@hadoop101 module]# mv spark-2.1.1-bin-hadoop2.7 spark

在这里插入图片描述

2）进入spark安装目录下的conf文件夹

[bigdata@hadoop101 module]# cd spark/conf/

3）修改配置文件名称

[bigdata@hadoop101 conf]# mv slaves.template slaves
[bigdata@hadoop101 conf]# mv spark-env.sh.template spark-env.sh

在这里插入图片描述
4）修改slave文件，添加work节点：（只写两台从机的节点）

[bigdata@hadoop101 conf]# vim slaves
hadoop102
hadoop103

在这里插入图片描述
5）修改spark-env.sh文件，添加如下配置： 46 47 行

[bigdata@hadoop101 conf]# vim spark-env.sh

SPARK_MASTER_HOST=hadoop101
SPARK_MASTER_PORT=7077       服务端口

在这里插入图片描述
6）分发spark包

[bigdata@hadoop101 module]# scp -r spark/ CentOS3:/opt/module/

在这里插入图片描述
7）启动

[bigdata@hadoop101 spark]# sbin/start-all.sh

网页查看：hadoop101:8080
**注意：**如果遇到 “JAVA_HOME not set” 异常，可以在sbin目录下的spark-config.sh 文件中加入如下配置：
export JAVA_HOME=XXXX
在这里插入图片描述

8）提交任务&执行程序（注意符号，报错就改为一行）

[bigdata@hadoop102 spark]# bin/spark-submit \       
--class org.apache.spark.examples.SparkPi \             主类
--master spark://hadoop102:7077 \                         master
--executor-memory 1G \										任务的资源
--total-executor-cores 2 \										
./examples/jars/spark-examples_2.11-2.1.1.jar \		jar包
100

./bin/spark-submit \
--class <main-class>
--master <master-url> \ yarn 
--deploy-mode <deploy-mode> \
--conf <key>=<value> \
... # other options
<application-jar> \
[application-arguments]

参数说明：
–master spark://hadoop101:7077 指定Master的地址
–class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)
–deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)*
–conf: 任意的Spark配置属性，格式key=value. 如果值包含空格，可以加引号“key=value”
application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。比如hdfs:// 共享存储系统，如果是 file:// path，那么所有的节点的path都包含同样的jar
application-arguments: 传给main()方法的参数
–executor-memory 1G 指定每个executor可用内存为1G
–total-executor-cores 2 指定总共executor使用的cpu核数为2个

该算法是利用蒙特·卡罗算法求PI
在这里插入图片描述
9）启动spark shell
/opt/module/spark/bin/spark-shell
–master spark://hadoop102:7077
–executor-memory 1g
–total-executor-cores 2
注意：如果启动spark shell时没有指定master地址，但是也可以正常启动spark shell和执行spark shell中的程序，其实是启动了spark的local模式，该模式仅在本机启动一个进程，没有与集群建立联系。
Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到，则直接应用sc即可 sparksession 是sparksql

scala> sc.textFile("file://路径")
.flatMap(_.split(" "))
.map((_,1))
.reduceByKey(_+_)
.collect

res0: Array[(String, Int)] = Array((hive,1), (bigdata,1), (spark,1), (hadoop,1), (hbase,1))

注意：进行该案例的时候默认读取文件是从hdfs文件上读取（hdfs://），如果想要使用本地文件系统需要使用file://来表明使用的是本地文件系统！！同时要保证每台节点都要有该文件！！
在这里插入图片描述

3、配置Job History Server【Standalone】

进入到Spark安装目录

cd /home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/conf

将spark-default.conf.template复制为spark-default.conf
在这里插入图片描述
修改spark-default.conf文件，开启Log：

【注意：HDFS上的目录需要提前存在】
修改spark-env.sh文件，添加如下配置：

在HDFS上创建好你所指定的eventLog日志目录。
spark-defaults.conf

spark.eventLog.enabled  true
spark.eventLog.dir       hdfs://master01:9000/directory

spark-env.sh
参数写到一行中，-D前加一个空格

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000
-Dspark.history.retainedApplications=3
-Dspark.history.fs.logDirectory=hdfs://master01:9000/directory"

参数描述：
spark.eventLog.dir：Application在运行过程中所有的信息均记录在该属性指定的路径下；
spark.history.ui.port=4000 调整WEBUI访问的端口号为4000
spark.history.fs.logDirectory=hdfs://master01:9000/directory 配置了该属性后，在start-history-server.sh时就无需再显式的指定路径，Spark History Server页面只展示该指定路径下的信息
spark.history.retainedApplications=3 指定保存Application历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。
将配置好的Spark文件拷贝到其他节点上
/home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh

启动后执行：【别忘了启动HDFS】

/home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/sbin/start-history-server.sh

在这里插入图片描述
到此为止，Spark History Server安装完毕.
如果遇到Hadoop HDFS的写入权限问题：
org.apache.hadoop.security.AccessControlException
解决方案：在hdfs-site.xml中添加如下配置，关闭权限验证

<property>
        	<name>dfs.permissions</name>
        	<value>false</value>
  	</property>

4、HA配置

在这里插入图片描述
图1 HA架构图
1）zookeeper正常安装并启动
2）修改spark-env.sh文件添加如下配置：

[bigdata@hadoop101 conf]# vi spark-env.sh

注释掉如下内容：

#SPARK_MASTER_HOST=hadoop101
SPARK_MASTER_PORT=7077

添加上如下内容：配置的时候保证下面语句在一行，否则配置不成功，每个-D参数使用空格分开

export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=hadoop101:2181,hadoop102:2181,hadoop103:2181
-Dspark.deploy.zookeeper.dir=/spark"

在这里插入图片描述
3）分发配置文件

[bigdata@hadoop101 conf]# scp spark-env.sh

4）在hadoop101上启动全部节点

[bigdata@hadoop101 spark]# sbin/start-all.sh

5）在hadoop102上单独启动master节点

[bigdata@hadoop102 spark]# sbin/start-master.sh

6）spark HA集群访问

/opt/module/spark/bin/spark-shell \
--master spark://hadoop101:7077,hadoop102:7077 \   
--executor-memory 2g \
--total-executor-cores 2

在这里插入图片描述
尝试以上方法，了解HA

5、Yarn模式安装

1）修改hadoop配置文件yarn-site.xml,添加如下内容：
[bigdata@hadoop102 hadoop]$ vi yarn-site.xml

<property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>

2）修改spark-env.sh，添加如下配置（配置你自己电脑的hadoop配置文件路径）：

[bigdata@hadoop102 conf]# vi spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop  
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

3）分发配置文件

[bigdata@hadoop102 conf]# xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
[bigdata@hadoop102 conf]# xsync spark-env.sh

4）执行一个程序

[bigdata@hadoop102 spark]# bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.11-2.1.1.jar \
100

注意：在提交任务之前需启动HDFS以及YARN集群。
在yarn模式下，不需要启动spark集群就能运行

四、IDEA环境应用

spark shell仅在测试和验证我们的程序时使用的较多，在生产环境中，通常会在IDE中编制程序，然后打成jar包，然后提交到集群，最常用的是创建一个Maven项目，利用Maven来管理jar包的依赖。

1、在IDEA中编写WordCount程序

1）创建一个Maven项目WordCount并导入依赖

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.11</artifactId>
        <version>2.1.1</version>
    </dependency>
</dependencies>
<build>
        <plugins>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.0.0</version>
                <configuration>
                    <archive>
                        <manifest>
                            <mainClass>WordCount(修改自己对应名字)</mainClass>
                        </manifest>
                    </archive>
                    <descriptorRefs>
                      <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
</build>

2）编写代码

package com.bigdata

import org.apache.spark.{SparkConf, SparkContext}

object WordCount{

  def main(args: Array[String]): Unit = {

//创建SparkConf并设置App名称
    val conf = new SparkConf().setAppName("WC")

//创建SparkContext，该对象是提交Spark App的入口
    val sc = new SparkContext(conf)

    //使用sc创建RDD并执行相应的transformation和action
    sc.textFile(args(0)).flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_, 1).sortBy(_._2, false).saveAsTextFile(args(1))

    sc.stop()
  }
}

3）打包到集群测试（只需要class文件和配置文件，不需要以来的jar包）

bin/spark-submit \
--class WordCount \
--master spark://hadoop102:7077 \
WordCount.jar \
/word.txt \
/out

2、本地调试
本地Spark程序调试需要使用local提交模式，即将本机当做运行环境，Master和Worker都为本机。运行时直接加断点调试即可。如下：
创建SparkConf的时候设置额外属性，表明本地执行：

val conf = new SparkConf().setAppName("WC").setMaster("local[*]")

未完

感谢观看，未完，下篇会继续更新大数据技术文章：Spark