1,RDD的全称 Resilient Distributed DataSet
2,RDD的概念 不可变的分区数据集,需要并行计算
3,RDD的5个特性 一堆的partition,算子都是作用到各个partition上的,不可变性导致了操作会产生一堆的RDD依赖,键值对RDD的分区器,各个partition不同的位置需要最佳的计算位置
4,SparkConf的作用 用于配置Spark作业上的一些属性,以键值对的方式传入,同时是SparkContext上的主要参数
5,SparkContext的作用 是spark程序的主要入口点,存在于driver进程当中的,对用一个JVM
6,Spark的结构 一个spark程序有一个driver进程和n个executor进程,driver向clusterManager申请资源来启动execuotor进程,并把代码和task发送到executor上,并保持和executor通信以监控各个executor
7,宽窄依赖 主要是看父partition上的数据给了多少个子partition使用了,一对一的话是窄依赖,一对多的话是宽依赖
8,transformation的lazy还是eager的 lazy的,RDD的操作只有遇到action才会实际执行的
9,共享变量有哪两种,有什么特性 a、广播变量:只读性 b、累加器:只能执行向上累加效果