
RDD
十有八九
这个作者很懒,什么都没留下…
展开
-
RDD的5大特性
RDD的5大特性:RDD是由一系列partition组成算子函数是作用于partition上的RDD之间有依赖关系,可溯源分区器是作用在k,v格式的RDD上partition对外提供最佳的计算为止,利于数据处理的本地化问题:什么是k,v格式的RDDRDD中的每个元素是一个个的二元组,name这个RDD就是k,v格式的RDDsc.textFile().spark 没有直接读取...原创 2019-07-14 09:12:33 · 742 阅读 · 0 评论 -
RDD的三大类算子总结
RDD编程APITransformation(转换):根据数据集创建一个新的数据集,计算后返回一个新RDD;例如:一个rdd进行map操作后生了一个新的rdd。Action(动作):对rdd结果计算后返回一个数值value给驱动程序;例如:collect算子将数据集的所有元素收集完成返回给驱动程序。Transformation  ...原创 2019-07-12 14:36:04 · 8517 阅读 · 1 评论 -
创建RDD三种方法
由一个已经存在的Scala集合创建。val rdd: RDD[Int] = sc.parallelize(Arrscay(1,2,3,4,5))由外部存储系统的文件创建。包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS、Cassandra、HBase等。val rdd2 = sc.textFile("/words.txt")已有的RDD经过算子转换生成新的...原创 2019-07-12 14:24:47 · 4562 阅读 · 0 评论 -
RDD常用的算子操作
什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的...原创 2019-07-11 21:53:34 · 786 阅读 · 0 评论 -
RDD的依赖关系
RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女宽依赖宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition总结:宽依赖我...原创 2019-07-18 07:36:04 · 278 阅读 · 0 评论