RDD:resilient弹性,可复原的
Distributed 分布式
Datasets 数据集
RDD的算子分为两类:一类叫Transformation,一类叫action.
Transformation是懒的,action是立即执行的。
如果我们向通过并行化的方式来创建RDD则,分区的数量与分配的核数有关:
启动的时候指定核数为5
以并行的方式创建RDD,保存到Hdfs
出现了5个分区
我们还可以通过rdd1.partitions.length来查看分区数量:
RDD:resilient弹性,可复原的
Distributed 分布式
Datasets 数据集
RDD的算子分为两类:一类叫Transformation,一类叫action.
Transformation是懒的,action是立即执行的。
如果我们向通过并行化的方式来创建RDD则,分区的数量与分配的核数有关:
启动的时候指定核数为5
以并行的方式创建RDD,保存到Hdfs
出现了5个分区
我们还可以通过rdd1.partitions.length来查看分区数量: