基本数据结构RDD
弹性分布式数据集。既是数据集,又是编程模型(就是python里的对象)。
- 特点
- RDD是数据集
- RDD是编程模型,可以调用函数
- RDD相互之间有依赖关系。(RDD.xxx()可以生成新的RDD)
- RDD是可以分区的。RDD的一些方法可以访问HDFS,HDFS是分区的。RDD可以访问很多种数据库。RDD处理非常大的数据集,所以支持分区,是并行的计算框架
常用API
SparkContext()
- 入口API,能够创建RDD,设置参数和Jar包
mapPartitions(f, numSlice,preservesPartitioning=False)
- 对rdd中的每一个分区进行f操作。与map的区别是,mapPart