【Spark】spark笔记

本文对Spark进行了概要总结,对比了它与MapReduce的区别,强调Spark基于内存计算的高速性能,介绍了其运行模式(包括local、standalone、yarn和mesos),并详细讨论了RDD的特性,如分区、容错和分布式。RDD作为Spark的核心概念,其弹性、容错性和分布式特性在文中得到阐述,同时展示了RDD API的基本操作流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark粗略总结,后面会排版更新

 

1.spark简介

spark是一种专门为大规模数据处理而设计的 快速通用的计算引擎。

2.与mapreduce的对比

spark在计算过程中产生的中间输出结果是保存在内存中的

spark一般情况下比mapreduce快十倍,在迭代计算(机器学习中的逻辑回归)的时候可以快100倍

3.spark速度快的原因

(1)基于内存计算,也就是中间输出结果保存在内存中

(2)DAG有向无环图可以切分任务执行的先后顺序

4.运行模式

(1)local(2)standalone(3)yarn(4)mesos

5.RDD(弹性分布式数据集)的五大特性

(1)RDD是由一系列patition组成的

(2)函数是作用在patition上的

(3)RDD之间具有依赖关系

(4)分区器是作用在具有K,V格式的RDD上的

(5)RDD提供一系列的最佳计算位置,移动计算不移动数据

6.什么是K,V格式的RDD

RDD中存储的都是二元组对象

7.RDD的弹性如何体现

patition的个数和大小可以改变,没有限制,而RDD又是由一系列的patition组成的

8.RDD的容错如何体现

RDD之间具有依赖关系,可以通过上一个RDD重新计算出RDD

9.RDD的分布式的体现

patition是分布式的在不同的节点上的,RDD由一系列的patition组成

10.RDD的API代码流程

(1)创建一个SparkConf对象

(2)创建一个SparkContext对象,并传入参数conf

(3)基于Spark创建一个RDD对象

(4)应用程序中要有action行动算子来触发Transformations转换算子的执行

(5)关闭Spark上下文对象

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值