一、RDD的创建方式
创建RDD的创建方式大概可以分为三种:
- 从集合中创建RDD;
- 从外部存储创建RDD;
- 从其他RDD转换。
1.1 从集合中创建RDD**
从集合中创建RDD主要有下面两个方法:makeRDD和parallelize
def makeRDD[T: ClassTag](seq: Seq[T],numSlices: Int = defaultParallelism): RDD[T]
默认的并行度defaultParallelism是通过以下代码来确定:
conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2))
makeRDD本质上其实就是调用了parallelize