大数据开发之Spark篇----定期总结(1)

本文深入探讨了Spark的关键概念,包括RDD的定义及其五个核心特性,SparkConf和SparkContext的作用,Spark的运行结构,以及宽窄依赖的区别。此外,还讲解了transformation的执行时机和Spark中共享变量的两种类型及其特性。

1,RDD的全称     Resilient Distributed DataSet

2,RDD的概念     不可变的分区数据集,需要并行计算

3,RDD的5个特性     一堆的partition,算子都是作用到各个partition上的,不可变性导致了操作会产生一堆的RDD依赖,键值对RDD的分区器,各个partition不同的位置需要最佳的计算位置

4,SparkConf的作用     用于配置Spark作业上的一些属性,以键值对的方式传入,同时是SparkContext上的主要参数

5,SparkContext的作用      是spark程序的主要入口点,存在于driver进程当中的,对用一个JVM

6,Spark的结构     一个spark程序有一个driver进程和n个executor进程,driver向clusterManager申请资源来启动execuotor进程,并把代码和task发送到executor上,并保持和executor通信以监控各个executor

7,宽窄依赖     主要是看父partition上的数据给了多少个子partition使用了,一对一的话是窄依赖,一对多的话是宽依赖

8,transformation的lazy还是eager的    lazy的,RDD的操作只有遇到action才会实际执行的

9,共享变量有哪两种,有什么特性      a、广播变量:只读性   b、累加器:只能执行向上累加效果

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值