
大数据之-Spark
速度飞起spark
Jreds
千里之行,始于足下,好好学习天天向上!
展开
-
01--浅析RDD
1.1什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。1.2 RDD的属性一组分区(Partition),即数据集的基本组成单位;一个计算每个分区的函数;RDD之间的依赖关系;一个Partitioner,即R...原创 2019-08-05 00:30:38 · 156 阅读 · 0 评论 -
02-几个常用的转换算子(value类型)
map(func)返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成mapPartitions(func)类似于map,但独立地在RDD的每一个分片(分区)上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T] => Iterator[U]。假设有N个元素,有M个分区,那么map的函数的将被调用N次,而mapPartitions...原创 2019-08-05 13:55:23 · 1208 阅读 · 0 评论