一、创建
1、外部数据源读取 hdfs sc.textFile("文件路径") hbase amasons3....
2、来自于本身的集合 sc.parallelize(List(1,2,3)) Parallezied Collection
二、操作类型
1、RDD Transformation 懒执行 会记录怎么转换而来,一旦出错可以重新来过
2、RDD action 触发计算,进行实际的数据处理
三、缓存persistent
1、cache ,是延迟执行的 ,需要在action执行之后进行RDD缓存
cache是特殊的persistent缓存方式,将RDD放到内存中