Spark学习(一)之Spark初识

什么是spark

官网地址:http://spark.apache.org/

1. spark历史及简介

spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。
12年正式开源,距今6年历史。

2.spark四大特性

  • 高效性
  • 在内存中比MapReduce快100倍,disk中快10倍

  • 易用性
  • 易用性强上手快,支持java,scala,python,R语言

  • 通用性
  • 应用广,可包含大数据查询,流式计算,机器学习,图计算

  • 兼容性
  • 可以在各个平台下运行

    3.spark的组成(基本组件)

    SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。

    SparkSQL:Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持 多种数据源,包含Hive表,parquest以及JSON等内容。

    SparkStreaming: 是Spark提供的实时数据进行流式计算的组件。

    4. Spark比MapReduce快的原因

    1. Spark是支持基于内存的迭代,而Hadoop是不支持基于内存的迭代
    2. spark是粗粒度资源调度,实现资源的复用
    3. Spark支持DAG有向无环图,使task进行管道计算
    4. Spark根据不通的场景选择不通的shuffle,其中HashShuffle不排序;Spark的shuffle比MR性能高:Spark默认Sort Shuffle,它没有很多的磁盘小文件

    5. Spark的运行模式

    • local:本地模式
    • standalone:Spark自己可以给自己分配资源(master,worker)
    • yarn:Spark可以运行在yarn上面
    • mesos:Spark可以运行在Mesos里面(Mesos 类似于yarn的一个资源调度框架)

    6. Spark运行架构

    spark

    Spark运行架构的设计
    1. Cluster Manager : 集群资源管理器,可以是自带的Mesos 也可以是Yarn
    2. Worker Node : 运行作业任务的工作节点
    3. Driver :每个应用的任务控制节点
    4. Executor :每个工作节点负责具体任务的执行过程

    Spark相关名词解释

    • RDD:是Resillient Distributed Dataset(弹性分布式数据集)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
    • DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系。
    • Application:用户编写的Spark应用程序。
    • Executor:是运行在工作节点(WorkerNode)的一个进程,负责运行Task。
    • Task:运行在Executor上的工作单元 。
    • Job:一个Job包含多个RDD及作用于相应RDD上的各种操作。
    • Stage:是Job的基本调度单位,一个Job会分为多组Task,
      每组Task被称为Stage, 或者也被称为TaskSet,代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集。
### 回答1: Spark大数据处理的框架,它可以处理大量的数据并进行分析。初学者可以通过学习Spark的基本概念和使用方法,了解Spark的工作原理和应用场景。在学习Spark的过程中,需要掌握Spark的核心组件和API,例如Spark Core、Spark SQL、Spark Streaming等。此外,还需要学习Spark的部署和调优,以及与其他大数据技术的集成。 ### 回答2: Spark种基于内存的分布式计算框架,是大数据处理中最流行的技术之Spark简单易用,能够快速地处理海量数据,尤其是在机器学习和数据挖掘领域中表现突出。本文将从初识Spark的角度入手,介绍Spark的基本概念和使用。 Spark的基本概念 1. RDD RDD全称为Resilient Distributed Datasets,中文意思是弹性分布式数据集,它是Spark的核心数据结构。RDD是个不可变的分布式的对象集合,可以跨越多个节点进行并行处理。个RDD可以分为多个分区,每个分区可以在不同的节点上存储。 2. DAG DAG即Directed Acyclic Graph(有向无环图),它是Spark中的个概念,用来表示作业的依赖关系。Spark个作业拆分成系列具有依赖关系的任务,每个任务之间的依赖形成了DAG。 3. 窄依赖和宽依赖 对于个RDD,如果个子RDD的每个分区只依赖于父RDD的个分区,这种依赖就称为窄依赖。如果个子RDD的每个分区依赖于父RDD的多个分区,这种依赖就称为宽依赖。宽依赖会影响Spark的性能,应尽量避免。 二、Spark的使用 1. 安装Spark 要使用Spark,首先需要在本地或者集群上安装Spark。下载安装包解压缩即可,然后设置环境变量,即可在命令行中运行Spark。 2. Spark Shell Spark Shell是Spark的交互式命令行界面,类似于Python的交互式控制台,可以快速测试Spark代码。在命令行中输入spark-shell即可进入。 3. Spark应用程序 除了Spark Shell,Spark还支持以应用程序的形式运行。要创建Spark应用程序,可以使用Scala、Java、Python等语言进行编写。使用Spark API,读取数据、处理数据、保存数据等操作都可以通过编写代码完成。 总之,Spark种优秀的分布式计算框架,能够在海量数据处理中发挥出强大的作用。初学者可以从掌握RDD、DAG、依赖关系等基本概念开始,逐步深入学习Spark的使用。 ### 回答3: Spark种快速、分布式数据处理框架,它能够在成千上万个计算节点之间分配数据和计算任务。Spark的优势在于它支持多种语言和数据源,可以在内存中快速存储和处理数据。 在初学Spark时,我们需要对Spark的架构和核心组件有些了解。首先,Spark的核心组件是Spark Core,它是个可以用于建立各种应用程序的计算引擎。与此同时,Spark持有丰富的库,包括Spark SQL、Spark Streaming、MLLib和GraphX等,以支持在各种数据类型(文本、图像、视频、地理定位数据等)上运行各种算法。 若想要在Spark中进行任务,有两种编程API可供选择:Spark的核心API和Spark的SQL及DataFrame API。Spark的核心API基于RDDs(弹性分布式数据集),它是不可变的分布式对象集合,Spark使用RDD来处理、缓存和共享数据。此外,Spark的SQL及DataFrame API提供了更高层次的语言,可以处理结构化和半结构化数据。 除了组件和API之外,我们还需要了解Spark的4个运行模式:本地模式、Standalone模式、YARN模式和Mesos模式。本地模式由单个JVM上单个线程(本地模式)或四个线程(local[*]模式)运行。Standalone通常用于小规模集群或开发和测试环境。在YARN或Mesos模式下,Spark将任务提交给集群管理器,并通过管理器分配和管理资源。 总体来说,初学Spark时,我们需要了解Spark的核心组件、编程API和运行模式。熟悉这些概念以及Spark的架构,可以帮助我们更好地理解Spark和构建高效且可扩展的Spark应用程序。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值