这篇文章是对于还没有入门和刚刚入门的spark小白提的,大佬可以给出意见,本人接受!!!
关于RDD部分,首先你要知道什么什么RDD
RDD字面意思就是弹性分布式数据集。。。。。。。(百度一下都是这种字眼很让人反感)
个人感觉应该要分开理解
1。弹性
1. RDD可以在内存和磁盘之间手动或自动切换(后续会仔细讲解)
2. RDD可以通过转换成其他的RDD,即血统(就是转换操作一些算子)
3. RDD可以存储任意类型的数据(不仅是文本数据还可以是音频视频等。。)
4.RDD持久化方式非常多种多样,而且RDD本身就很聪明
这就叫弹性就是什么数据都能玩,而且是想怎么玩就怎么玩!!!
2。分布式:
1.数据可以分散在好几个机器上
2.,一个RDD好几个分区
3数据集
1.初代RDD: 处于血统的顶层,存储的是任务所需的数据的分区信息,还有单个分区数据读取的方法,没有依赖的RDD, 因为它就是依赖的开始。
&